Table of Contents 


Introduction 1.1 
Node fi 4 1.2 
架构 一 览 1.2.1 
为 啥 是 libuv 1.2.2 
V8 概念 1.2.3 
C++ 和 JS 交互 1.2.4 
从 Thello world] 讲 起 1.3 
模块 加 载 1.4 
Global #t % 1.5 
事件 循环 1.6 
Timer 解读 1.7 
Yield 魔法 1.8 
Buffer 1.9 
Event 1.10 
Domain 1.11 
Stream 流 1.12 
Net 网 络 1.13 
Socket 1.13.1 
构建 应 用 1.13.2 
Jn 5 1.13.3 
HTTP 1.14 
HTTP Server 1.14.1 
HTTP Client 1.14.2 
FS 文件 系统 1.15 
文件 系统 1.15.1 
文件 抽象 1.15.2 


IO 那些 事 几 


— 
一 
e 
Co 


libuv 的 选 型 
文件 ID 
Fs 精粹 
进程 
进程 
Cluster 
Node.js 的 坑 
其 他 
Node.js & Android 
Node.js & Docker 
Node.js 调 优 
附录 


——— 一 人 


—— 一 


= 一 一 人 


.15.4 
.15.5 
.15.6 


1.16 


.16.1 
.16.2 


1.17 
1.18 


.18.1 
.18.2 
.18.3 


1.19 


《深入 理解 Node.js : 核心 思想 与 源码 分 析 》 


Node.js 的 源码 分 析 ， 基 于 node v6.0.0。 


源码 分 析 包 括 (libuv v8) ,需要 有 一 定 的 C、C++ 基 础 。 Node.js 的 源码 到 处 闪烁 
着 开发 者 的 智慧 和 追求 极致 的 精神 。 包括 但 不 限于 : 


e 系统 架构 
e 设计 模式 
e 性 能 优化 
e EJ 


本 书 通过 分 析 node 核心 模块 的 实现 ， 向 读者 益 述 node 异步 1D， 事 件 循 环 的 核心 
思想 。 帮 助 开发 者 更 好 的 使 用 Node.js。 


通过 追溯 node 4k E JF Z issue, 探讨 node 的 变迁 和 演进 ， 学 习 node.js Sj TERT 
学 
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用 支付 宝 扫 二 维 码 ， 加 我 好 友 


Chapter1 


架构 一 区 


KAR RA 


Node.js 主 要 分 为 四 大 部 分 ，Node Standard Library > Node Bindings > V8 ° 
Libuv， 架 构图 如 下 : 


| . Javascript Dy C/C++ 





e Node Standard Library 是 我 们 每 天 都 在 用 的 标准 库 ， 如 Http, Buffer 模块 。 
e Node Bindings 是 沟通 JS 和 C++ 的 桥梁 ， 封 装 V8 和 Libuv 的 细节 ， 向 上 层 提 供 
基础 API 服 务 。 
e 这 一 层 是 支撑 Node.js 运行 的 关键 ， 由 C/C++ 实现 。 
o V8 是 Google 开 发 的 JavaScript 引 擎 ， 提 供 JavaScript 运 行 环境 ， 可 以 说 它 
就 是 Node.js 的 发 动机 。 
o Libuv 是 专门 为 Node.js 开 发 的 一 个 封装 库 ， 提 供 跨 平台 的 异步 |/O 能 
o C-ares : 提供 了 天 步 处 理 DNS 相关 的 能 力 。 
o http parser ` OpenSSL ` zlib 等 : 提供 包括 http 解析 、SSL、 数 据 压缩 等 
其 他 的 能 力 。 


代码 结构 


树 形 结构 查看 ， 使 用 tree 命令 
2 nodejs git:(master) tree -L 1 


| 一 AUTHORS 

| 一 BSDmakefile 

|— BUILDING. md 

|— CHANGELOG. md 

| 一 CODE OF CONDUCT.md 
上 一 COLLABORATOR_GUIDE ,md 
|— CONTRIBUTING .md 

|— GOVERNANCE . md 

|— LICENSE 

I — Makefile 

|— README. md 

|— ROADMAP .md 

I— WORKING GROUPS .md 
I— android-configure 
| 一 benchmark 

I— common.gypi 

| 一 config.gypi 

I— config.mk 

I— configure 

— deps 

— doc 

I— icu config.gypi 

|I— lib 

| 一 node.gyp 

I— out 

— src 
I— test 

— tools 

L— vcbuild.bat 


进一步 查看 deps AR: 


> nodejs git:(master) tree deps -L 1 
deps 

— cares 

— gtest 

— http parser 

I— npm 

— openssl 

— uv 

— v8 


L— zlib 


node.js 核心 依赖 六 个 第 三 方 模块 。 其 中 核心 模块 http_parser, uv, v8 这 三 个 模块 


在 后 续 章节 我 们 会 陆续 展开 。 gtest 是 C/C++ 单元 测试 框架 。 


为 啥 是 libuv 


& 
93 


oA 


node.js 最 初 开始 于 2009 年 ， 是 一 个 可 以 让 Javascript 代 码 离 开 浏览 器 的 执行 环境 也 
可 以 执行 的 项 目 。node.js 使 用 了 Google 的 V8 解析 引擎 和 Marc Lehmann 的 libev ° 
Node.js 将 事件 驱动 的 MO 模型 与 适合 该 模型 的 编程 语言 (Javascript) 融 合 在 了 一 起 。 
随 着 node.js 的 日 益 流行 ，node.js 需 要 同时 支持 windows, 但 是 libev 只 能 在 Unix 环 境 
下 运行 。Windows 平台 上 与 kqueue(FreeBSD) 或 者 (e)poll(Linux) 等 内 核 事 件 通知 相 
应 的 机 制 是 |OCP。libuv 提 供 了 一 个 跨 平台 的 抽象 ， 由 平台 决定 使 用 libev 或 IOCP » 
在 node-v0.9.0 版 本 中 ，libuv 移 除了 libev 的 内 容 。 


为 啥 是 异步 
我 们 先 看 一 张 表 : 
分 类 操作 时 间 成 本 
缓存 L1 缓 存 1 纳 秒 
L2 缓 存 4 纳 秒 
主 存储 器 100 ns 
SSD 随机 读 取 16000 ns 
I/O 往返 在 同一 数据 中 心 500000 ns 
物理 磁盘 了 寻 道 4,000,000 ns 


我 们 看 到 即便 是 SSD 的 访问 相 较 于 高 速 的 CPU， 仍然 是 慢 速 设备 。 于 是 基于 事件 
驱动 的 IO 模型 就 应 运 而 生 ， 解 决 了 高 速 设 备 同 步 等 待 慢 速 设 备 或 访问 的 问题 。 这 
不 是 libuv 的 独创 ，linux kernel 原生 支持 的 NIO 也 是 这 个 思路 。 但 libuv 统一 了 网 
络 访问 ， 文 件 访问 ， 做 到 了 跨 平台 。 


libuv 架构 


7] "& xc libuv 


libuv 


Network I/O 
File DNS User 


I/O Ops. code 
TCP UDP alleys 


IOCP Thread Pool 
ac 


从 左 往 右 分 为 两 部 分 ， 一 部 分 是 与 网 络 |/O 相 关 的 请 求 ， 而 另外 一 部 分 是 由 文件 |/O， 
DNS Ops 以 及 User code 组 成 的 请 求 。 








从 图 中 可 以 看 出 ， 对 于 Network I/O 和 以 File |/ 为 代表 的 另 一 类 请 求 ， 异 步 处 理 的 
底层 支撑 机 制 是 完全 不 一 样 的 。 


对 于 Network MO 相关 的 请 求 ， 根 据 DS 平 台 不 同 ， 分 别 使 用 Linux 上 的 epoll，OSX 
和 BSD 类 OS 上 的 kqueue，SunOS 上 的 event ports 4 /& Windows.E $9 IOCP $c d$] » 


而 对 于 File IO 为 代表 的 请 求 ， 则 使 用 thread pool。 利 用 thread pool 的 方式 实现 异步 
请 求 处 理 ， 在 各 类 OS 上 都 能 获得 很 好 的 支持 。 


笔者 曾经 给 libuv 社区 提出 过 linux 平台 下 用 原生 的 NIO 替 换 thread pool 的 建议 并 实 
现 [2], 测 试 发 现 有 3% 的 提升 . 考虑 到 NIO 对 内 核 版 本 的 依赖 ， 利 用 thread pool 的 方 
式 实 现 异 步 请 求 处 理 ， 在 各 类 OS 上 都 能 获得 很 好 的 支持 ， 相 信和 是 libuv 作者 权衡 再 
三 的 结果 。 


后 面 详细 的 模块 源码 分 析 时 ， 陆 续 的 会 一 一 剖析 。 


e [1]. http://luohaha.github.io/Chinese-uvbook/ 
e [2]. https://github.com/libuv/libuv/issues/461 
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V8 concept 


ARAM ER 





现在 JS 引擎 的 执行 过 程 大 致 是 : 源 代码 ---> 抽 象 语 法 树 ---> 字 节 码 --->JIT---> 本 地 
代码 。 


V8 更 加 直接 的 将 抽象 语法 树 通过 JIT 技术 转换 成 本 地 代码 ， 放 弃 了 在 字 节 码 阶段 
可 以 进行 的 一 些 性 能 优化 ， 但 保证 了 执行 速度 。 在 V8 生成 本 地 代码 后 ， 也 会 通过 
Profiler 采集 一 些 信息 ， 来 优化 本 地 人 代码。 虽然 ， 少 了 生成 字 节 码 这 一 阶段 的 性 能 
优化 ， 但 极 大 减少 了 转换 时 间 。 

PS : Tuborfan 将 和 逐步 取代 Crankshaft 


在 使 用 v8 引擎 之 前 ， 先 来 了 解 一 下 几 个 基本 概念 : 句柄 (handle) ， 作 用 域 
(scope) ， 上 下 文 环境 (可 以 简单 地 理解 为 运行 环境 ) 。 


Isolate 


V8 概念 


An isolate is a VM instance with its own heap. It represents an isolated 
instance of the V8 engine. V8 isolates have completely separate states. 
Objects from one isolate must not be used in other isolates. 


一 个 Isolate 是 一 个 独立 的 虚拟 机 。 对 应 一 个 或 多 个 线程 。 但 同一 时 刻 只 能 被 一 个 
线程 进入 。 所 有 的 Isolate 彼此 之 间 是 完全 隔离 的 , 它们 不 能 够 有 任何 共享 的 资源 。 
如 果 不 显示 创建 Isolate, 会 自动 创建 一 个 默认 的 lsolate。 


后 面 提 到 的 Context、Scope、Handle 的 概念 都 是 一 个 Isolate 内 部 的 , 如 下 图 : 


An Isolate 
— 





Handle 概念 
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在 V8 中 ， 内 存 分 配 都 是 在 V8 的 Heap T 314127 Aca * JavaScript 的 值 和 对 象 也 
都 存放 在 V8 的 Heap 中 。 这 个 Heap 由 V8 独立 的 去 维护 ， 失 去 引 用 的 对 象 将 会 
被 V8 GC 掉 并 可 以 重新 分 配给 其 他 对 象 。 而 Handle 即 是 对 Heap 中 对 象 的 引 
用 。V8 为 了 对 内 存 分 配 进行 管理 ，GC 需要 对 V8 中 的 所 有 对 象 进 行 跟踪 ， 而 对 象 
都 是 用 Handle 方式 引用 的 ， 所 以 GC 需要 对 Handle 进行 管理 ， 这 样 GC 就 能 知 
iÉ Heap 中 一 个 对 象 的 引用 情况 ， 当 一 个 对 象 的 Handle 引用 发 生 改 变 的 时 候 ，GC 
即 可 对 该 对 象 进行 回收 或 者 移动 。 因 此 ，V8 编程 中 必须 使 用 Handle 去 引用 一 个 对 
象 ， 而 不 是 直接 通过 C++ 的 方式 去 获取 对 象 的 引用 ， 直 接 通过 C++ 的 方式 去 引用 
一 个 对 象 ， 会 使 得 该 对 象 无 法 被 V8 管理 。 


Handle 分 为 Local 和 Persistent 两 种 。 


从 字面 上 就 能 知道 ，Local 是 局 部 的 ， 它 同时 被 HandleScope 进行 管理 。 
persistent ， 类 似 与 全 局 的 ， 不 受 HandleScope 的 管理 ， 其 作用 域 可 以 延伸 到 不 同 
W 44k > 9» Local 是 局 部 的 ， 作 用 域 比 较 小 。 Persistent Handle 对 象 需要 
Persistent::New, Persistent::Dispose 配对 使 用 ， 类 似 于 C++ 中 new 和 delete ° 


Persistent::MakeWeak 可 以 用 来 弱化 一 个 Persistent Handle， 如 果 一 个 对 象 的 唯 
一 引用 Handle 是 一 个 Persistent， 则 可 以 使 用 MakeWeak 方法 来 弱化 该 引用 ， 该 
方法 可 以 触发 GC 对 被 引用 对 象 的 回收 。 


Scope 

从 概念 上 理解 ， 作 用 域 可 以 看 成 是 一 个 句柄 的 容器 ， 在 一 个 作用 域 里 面 可 以 有 很 多 
很 多 个 句柄 (也 就 是 说 ， 一 个 scope 里 面 可 以 包含 很 多 很 多 个 v8 引擎 相关 的 对 
象 ) ， 和 句柄 指向 的 对 象 是 可 以 一 个 一 个 单独 地 释 放 的 ， 但 是 很 多 时 候 (EAS 
业务 代码 的 时 候 ) ， 一 个 一 个 地 释放 名 柄 过 于 繁 珊 ， 取 而 代 之 的 是 ， 可 以 释放 一 个 
scope， 那 么 包含 在 这 个 scope 中 的 所 有 handle 就 都 会 被 统一 释放 掉 了 。 


Scope 在 v8.h 中 有 这 么 几 个 : HandleScope > Context::Scope ° 


HandleScope 是 用 来 管理 Handle 的 ， 而 Context::Scope 仅仅 用 来 管理 Context 对 
象 。 


代码 像 下 面 这 样 : 


// 在 此 函数 中 的 Handle 都 会 被 handleScope 管理 
Be handleScope; 

// 创建 一 个 js 执行 环境 Context 
Handle<Context> context = Context: :New(); 
Context::Scope contextScope(context); 


/ / EL nA IX £u 
7 N 


ví 


Act UT > 389 746 SB > AB A HandleScope > 3E se HA v AY Handle 就 
不 需要 再 理会 释放 资源 了 。 而 Context::Scope 仅仅 做 了 : 在 构造 中 调用 context- 
>Enter()， 而 在 析 构 函数 中 调用 context->Leave()。 


Context 概念 


从 概念 上 讲 ， 这 个 上 下 文 环境 也 可 以 理解 为 运行 环境 。 在 执行 javascript 脚本 的 时 
候 ， 总 要 有 一 些 环境 变量 或 者 全 局 函数 。 我 们 如 果 要 在 自己 的 c++ WRA P iA v8 
引擎 ， 自 然 希望 提供 一 些 c++ 编写 的 函数 或 者 模块 ， 让 其 他 用 户 从 脚本 中 直接 调 
用 ， a A Javasemp! 的 强大 。 我 们 可 以 用 c++ 编写 全 局 函数 或 者 类 ， 让 
其 他 人 通过 javascript 进行 调用 ， 这 样 ， 就 无 形 中 扩展 了 javascript 的 功能 。 


Context 可 以 诅 套 ， 即 当前 函数 有 一 个 Context， 调 用 其 它 函 数 时 如 果 又 有 一 个 
Context， 则 在 被 调用 的 函数 中 javascript 是 以 最 近 的 Context X 7E 0 > 3: iE di ix 
部 数 时 ， 又 恢复 到 了 原来 的 Context。 


我 们 可 以 往 不 同 的 Context 里 “导入 ”不 同 的 全 局 变量 及 函数 ， 互 不 影响 。 据 说 设计 
Context 的 最 初 目 的 是 为 了 让 浏览 器 在 解析 HTML 45 iframe 时 ， 让 每 个 iframe 都 
有 独立 的 javascript 执行 环境 ， 即 一 个 iframe 对 应 一 个 Context ° 


同 作用 域 下 不 同 的 执行 上 下 文 


V8 概念 


i! Create contoxtA and contextB, enter contextA: 
Handle«Context» contextA = Context: :New() ; 
Handle<Context> contextB = Context: :New() ; 


Context: :Scope scopeA(contextaA) ; 





contextA 


Functions 


Context: :Scope scopeB(contextB) ; 


Built in 
JavaScript Custom 
functi JavaScript 
Functions 
and objects 


i! Exit contoxtB and so return to contoxtA: 
Context::-Scope contextB; 





context 内 可 以 建立 scope 用 来 容纳 其 他 conte 





Managed by the 
garbage collector 


1. Handle<Context> context = Context: :New(); 

2. Context: :Scope context scope (context); 

3. HandleScope handle scope: 

4. Handle<String> source obj = String: :New(argv[[]1]); 

5. Handle<Script> script obj = Script: :Compile(source_ obj): 


6. Handle<Value> local result = script_obj->Run () ; 


| 
' 
b 
\ 


7. context.Dispose () ; 





从 这 张 图 可 以 比较 清楚 的 看 到 Handle > HandleScope > "4 3X Handle 引用 的 对 象 
之 间 的 关系 。 从 图 中 可 以 看 到 ，V8 的 对 象 都 是 存在 V8 的 Heap 中 ， 而 Handle 则 
是 对 该 对 和 象 的 引用 。 


垃圾 回收 
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垃圾 回收 器 是 一 把 十 足 的 双 刃 剑 。 好 处 是 简化 程序 的 内 存 管 理 ， 内 存 管理 无 需 程序 
员 来 操作 ， 由 此 也 减少 了 长 时 间 运 转 的 程序 的 内 存 泄 漏 。 然 而 无 法 预期 的 停顿 ， 影 
响 了 交互 体验 。 


基本 概念 


垃圾 回收 器 解决 基本 问题 就 是 ， 识 别 需 要 回收 的 内 存 。 一 旦 辨别 完毕 ， 这 些 内 存 区 
域 即 可 在 未 来 的 分 配 中 重用 ， 或 者 是 返还 给 操作 系统 。 一 个 对 象 当 它 不 是 处 于 活跃 
状态 的 时 候 它 就 死 了 。 一 个 对 象 处 于 活跃 状态 ， 当 且 仅 当 它 被 一 个 根 对 象 或 另 一 个 
活跃 对 象 指 向 。 根 对 象 被 定义 为 处 于 活跃 状态 ， 是 浏览 器 或 V8 所 引用 的 对 象 。 比 
如 说 全 局 对 象 属 于 根 对 象 ， 因 为 它们 始终 可 被 访问 ; 浏览 器 对 象 ， 如 DOM 元 素 ， 
也 属于 根 对 象 ， 尽 管 在 某 些 场合 下 它们 只 是 弱 引 用 。 


堆 的 构成 


在 深入 研究 垃圾 回收 器 的 内 部 工作 原理 之 前 ， 首 先 来 看 看 堆 是 如 何 组 织 的 。V8 将 
堆 分 为 了 几 个 不 同 的 区 域 : 


MB 


» 


7 Igi code space 100 


lg lo space 
lli map. space 
J fi new. space 80 
gm oc space 
60 





x Y ts Wp Fy iv “ J el > 
06 PM 09 PM Tue 17 03 AM 06 AM 09 AM 12 PM 03 PM 
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oe 大 多 数 对 象 开始 时 被 分 配 在 这 里 。 新 生 区 是 一 个 很 小 的 区 域 ， 垃 圾 回收 在 
这 个 区 域 非常 频繁 ， 与 其 他 区 域 相 独 立 。 


老生 指针 区 : ee de MEM Me f MOI 
活 一 段 时 间 之 后 的 对 象 都 会 被 挪 到 这 里 。 


老生 数据 区 : 这 里 存放 只 包含 原始 数据 的 对 象 (这 些 对 象 没 有 指向 其 他 对 象 的 指 
针 ) 。 字 符 串 、 封 箱 的 数字 以 及 未 封 箱 的 双 精 度数 字数 组 ， 在 新 生 区 经 历 一 次 
Scavenge 后 会 被 移动 到 这 里 。 


大 对 象 区 : 这 里 存放 体积 超过 1MB 大 小 的 对 象 。 每 个 对 象 有 自己 mmap 产生 的 内 
存 。 垃 圾 回收 器 从 不 移动 大 对 象 。 


Code 区 : 代码 对 象 ， 也 就 是 包含 JIT 之 后 指令 的 对 象 ， 会 被 分 配 到 这 里 。 


Cell 区 、 属 性 Cell X ^ Map 区 : 这 些 区 域 存放 Cell、 属 性 Cell 和 Map， 每 个 区 
域 因为 都 是 存放 相同 大 小 的 元 素 ， 因 此 内 存 结构 很 简单 。 


如 上 图 : 在 node-v4.X 之 后 ， 区 域 进行 了 合并 为 : 新 生 区 ， 老 生 区 ， 大 对 象 
区 ，Map 区 ，Code & 


有 了 这 些 背 景 知识 ， 我 们 可 以 来 深入 垃圾 回收 器 了 。 


识别 指针 


垃圾 回收 器 面临 的 第 一 个 问题 是 ， 如 何 才能 在 堆 中 区 分 指针 和 数据 ， 因 为 指针 指向 
着 活跃 的 对 象 。 大 多 数 垃圾 回收 算法 会 将 对 象 在 内 存 中 挪动 (以便 减少 is > 
AGRE) ， 因 此 即使 不 区 分 指针 和 数据 ， 我 们 也 常常 需要 对 指针 进行 改写 。 
V8 采用 了 标记 指针 法 : 这 种 方法 需要 在 每 个 指针 的 末 位 预 留 一 位 来 标记 这 个 字 代 
表 的 是 指针 或 数据 。 


Xp 898 7E 


当 一 个 对 象 经 过 多 次 新 生 代 的 清理 依旧 幸存 ， 这 说 明 它 的 生存 周期 较 长 ， 也 就 会 被 
移动 到 老生 代 ， 这 称 为 对 象 的 晋升 。 具 体 移 动 的 标准 有 两 种 : 


e TAM From 空间 复制 到 To 空间 时 ， 会 检查 它 的 内 存 地 址 来 判断 这 个 对 象 是 
否 已 经 活 过 一 次 新 生 代 的 清理 ， 如 果 是 ， 则 复制 到 老生 代 中 ， 否 则 复制 到 To 
空间 中 

e 机 From 空间 复制 至 空间 时 ， 如 果 To 空间 已 经 被 使 用 了 超过 25% > A 

这 个 对 象 直接 被 复制 至 QU o 
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如 果 新 生 区 中 某 个 对 象 ， 只 有 一 个 指向 它 的 指针 ， 而 这 个 指针 恰好 是 在 老生 区 的 对 
象 当 中 ， 我 们 如 何 才能 知道 新 生 区 中 那个 对 象 是 活跃 的 呢 ? 为 了 解决 这 个 问题 ， 实 
际 上 在 写 缓冲 区 中 有 一 个 列表 store-buffer{.cc,.h,-inl.h} ， 列 表 中 记录 了 
所 有 老生 区 对 象 指向 新 生 区 的 情况 。 MERGE MR Si mses tn th , 
而 当 有 老生 区 中 的 对 象 出 现 指向 新 生 区 对 象 的 指针 时 ， 我 们 便 记 录 下 来 这 样 的 跨 区 
指向 。 由 于 这 种 记录 行为 总 是 发 生 在 写 操作 时 ， 它 被 称 为 写 屏障 . 


垃圾 回收 三 部 曲 


Stop-the-World 的 GC 包括 三 个 主要 步骤 : 
1. 枚 举 根 节点 引用 ; 
2. 发 现 并 标记 活 对 象 ; 
3. 垃圾 内 存 清理 
分 代 回 收 在 V8 中 分 为 Scavenge , Mark-Sweep ° 
e Scavenge : 当 分 配 指针 达到 了 新 生 区 的 末尾 ， 就 会 有 一 次 清理 。 
Mark-Sweep : 对 于 活跃 超过 2 个 小 周期 的 对 象 ， 则 需 将 其 移动 至 老生 区 , 当 
老生 区 有 足够 多 的 对 象 时 才 会 触发 。 


如 果 你 还 想 了 解 更 多 垃圾 回收 上 的 东西 ， 我 建议 你 读 读 Richard Jones 和 Rafael 
Lins 写 的 《Garbage Collection》， 这 是 一 个 绝 好 的 参考 ， 涵 盖 了 大 量 你 需要 了 解 
的 内 容 。 你 可 能 还 对 《Garbage First Garbage-Collection》 感 兴趣 ， 这 是 一 篇 描述 
JVM 所 使 用 的 垃圾 回收 算法 的 论文 。 


e https://developers.google.com/v8/get_started 
e https://developers.google.com/v8/embed 
e http://newhtml.net/v8-garbage-collection/ 


C++ 和 JS 交互 


本 章 主要 来 讲 讲 如 何 通 过 V8 来 实现 JS 调用 C++。JS 调用 C++， 分 为 JS 调用 
C++ AX (全局) ， 和 调用 C++ X 


数据 及 模板 


由 于 C++ 原生 数据 类 型 与 JavaScript 中 数据 类 型 有 很 大 差异 ， 因 此 V8 提供 了 
Value 类 ， 从 JavaScript 到 C++ > M C++ 到 JavaScrpt 都 会 用 到 这 个 类 及 其 子 
类 ， 比 如 : 


Handle<Value> Add(const Arguments& args){ 
int a = args[0]->Uint32Value(); 
int b = args[1]->Uint32Value(); 


return Integer: :New(atb); 


} 


Integer 即 为 Value 的 一 个 子 类 。 
V8 中 ， 有 两 个 模板 (Template) 类 (并 非 C++ 中 的 模板 类 ) : 


e 对 象 模 板 (ObjectTemplate) 

e 函数 模板 (FunctionTemplate) 这 两 个 模板 类 用 以 定义 JavaScript 对 象 和 
JavaScript 函数 。 我 们 在 后 续 的 小 节 部 分 将 会 接触 到 模板 类 的 实例 。 通 过 使 用 
ObjectTemplate， 可 以 将 C++ 中 的 对 象 暴 露 给 脚本 环境 ， 类 似 的 ， 
FunctionTemplate 用 以 将 C++ 函数 暴露 给 脚本 环境 ， 以 供 脚 本 使 用 。 


JS 使 用 C++ 变量 


在 JavaScript 5 V8 间 共 享 变量 事实 上 是 非常 容易 的 ， 基 本 模板 如 下 : 


static char sname[512] = {0}; 


static Handle<Value> NameGetter(Local<String> name, const Acces 
sorInfo& info) { 
return String: :New((char* )&sname, strlen((char* )&sname) ); 


static void NameSetter(Local<String> name, Local<Value> value, 
const AccessorInfo& info) { 
Local<String> str = value->ToString(); 
str-»WriteAscii((char*)&sname); 


定义 了 NameGetter, NameSetter 22 > # main 有 函数 中 ， 将 其 注册 在 global  : 


// Create a template for the global object. 
Handle<ObjectTemplate> global = ObjectTemplate: :New(); 

//public the name variable to script 
global-»-SetAccessor(String::New("name"), NameGetter, NameSetter 


): 


JS 调用 C++ AR 
在 JavaScript 中 调用 C++ 函数 是 脚本 化 最 常见 的 方式 ， 通 过 使 用 C++ 函数 ， 可 以 


极 大 程度 的 增强 JavaScript 脚本 的 能 力 ， 如 文件 读 写 ， 网 络 / 数据库 访问 ， 图 形 / 
图 像 处 理 等 等 ， 类 似 于 JAVA 的 jni 技术 。 


在 C++ 代码 中 ， 定 义 以 下 原型 的 函数 : 


Handle<Value> func(const Arguments& args){//return something} 


然后 ， 再 将 其 公开 给 脚本 : global- 
>Set (String: :New("func"),FunctionTemplate: :New(func) ) 


JS 使 用 C++ 类 


如 果 从 面向 对 象 的 视角 来 分 析 ， 最 合理 的 方式 是 将 C++ 类 公开 给 JavaScript > 3E 
可 以 将 JavaScript 内 置 的 对 象 数量 大 大 增加 ， 从 而 尽 可 能 少 的 使 用 宿主 语言 ， 而 更 
大 的 利用 动态 语言 的 灵活 性 和 扩展 性 。 事 实 上 ，C++ 语言 概念 众多 ， 内 容 繁 复 ， 学 
习 曲 线 较 JavaScript 远 为 陡峭 。 最 好 的 应 用 场景 是 : 既 有 脚本 语言 的 灵活 性 ， 又 
有 C/C++ 等 系统 语言 的 效率 。 使 用 V8 引擎， 可 以 很 方便 的 将 C++ 类 ”包装 ”成 可 
供 JavaScript 使 用 的 资源 。 


我 们 这 里 举 一 个 较为 简单 的 例子 ， 定 义 一 个 Person 类 ， 然 后 将 这 个 类 包装 并 暴露 
给 JavaScript 脚本 ， 在 脚本 中 新 建 Person 类 的 对 象 ， 使 用 Person 对 象 的 方法 。 
首先 ， 我 们 在 C++ 中 定义 好 类 Person: 


class Person { 
private: 
unsigned int age; 
char name[512]; 


public: 
Person(unsigned int age, char *name) { 
this->age = age; 
strncpy(this->name, name, sizeof(this->name) ); 


unsigned int getAge() { 
return this->age; 


void setAge(unsigned int nage) { 
this->age = nage; 


char *getName() { 
return this->name; 


void setName(char *nname) { 
strncpy(this-»name, nname, sizeof(this->name) ); 


HH 


Person 类 的 结构 很 简单 ， 只 包含 两 个 字段 age 和 name’ JE LT & E 8j 
getter/setter. 然后 我 们 ore 告 器 的 包装 


Handle<Value> PersonConstructor(const Arguments& args)( 
Handle<Object> object = args.This(); 
HandleScope handle_scope; 
int age = args[0]->Uint32Value(); 


String: :UCT8Value str(args[1]); 
char* name = ToCString(str); 


Person *person = new Person(age, name); 
object->SetInternalField(9, External: :New(person)); 
return object; 


J BUR ZEE STXUE HK MREMORSE— DTP o BRHARE-KH> AA 
构造 函数 在 V8 看 来 ， 也 是 一 个 函数 。 需 要 注意 的 是 ， 从 args 中 获取 参数 并 转换 
为 合适 的 类 型 之 后 ， 我 们 根据 此 参数 来 调用 Person 类 实际 的 构造 函数 ， 并 将 其 设 
置 在 object 的 内 部 字段 中 。 紧 接着 ， 我 们 需要 包装 Person 类 的 getter/setter : 


Handle<Value> PersonGetAge(const Arguments& args) { 
Local<Object> self = args.Holder(); 


Local«External» wrap = Local<External>: :Cast(self->GetInterna 
lField(09)); 


void *ptr - wrap-»Value(); 


return Integer: :New(static_cast<Person*>(ptr)->getAge()); 


Handle<Value> PersonSetAge(const Arguments& args) { 
Local«Object» self = args.Holder(); 


Local«External» wrap = Local<External>: :Cast(self->GetInterna 
lField(0)); 


void* ptr - wrap-»Value(); 


static cast«Person*»(ptr)-»setAge(args[0]-»Uint32Value()); 
return Undefined(); 


而 getName 和 setName 的 与 上 例 类 似 。 在 对 函数 包装 完成 之 后 ， 需 要 将 Person 
类 暴露 给 脚本 环境 : 首先 ， 创 建 一 个 新 的 函数 模板 ， 将 其 与 字符 串 "Person” 绑 定 ， 
并 放 入 global : 


Handle<FunctionTemplate> person template = FunctionTemplate: :Ne 
w(PersonConstructor); 


person template-»-SetClassName(String::New("Person")); 
global--Set(String::New("Person"), person template); 


然后 定义 原型 模板 : 


Handle<ObjectTemplate> person_proto = person_template->Prototyp 
eTemplate(); 


person proto-»Set("getAge", FunctionTemplate::New(PersonGetAge) 
); 
person proto-»Set("setAge", FunctionTemplate::New(PersonSetAge) 


); 


person_proto->Set("getName", FunctionTemplate: :New(PersonGetNam 


e)); 


person_proto->Set("setName", FunctionTemplate: :New(PersonSetNam 


EE 
最 后 设置 实例 模板 : 


Handle<ObjectTemplate> person_inst = person_template->InstanceT 
emplate(); 
person_inst->SetInternalFieldCount(1); 


C++ 调用 JS HA 


我 们 直接 看 下 src/timer wrap.cc 的 例子 ，V8 编译 执行 timerjs, 构造 了 Timer 对 
象 。 


static void OnTimeout(uv_timer_t* handle) { 
Timerwrap* wrap = static cast«TimerWrap*»(handle-»data); 
Environment* env - wrap-»env(); 
HandleScope handle scope(env-»isolate()); 
Context::Scope context scope(env-»context()); 
wrap->MakeCallback(kOnTimeout, 0, nullptr); 


inline v8::Local<v8::Value> AsyncWwrap::MakeCallback(uint32 t ind 
ex, int argc, v8::Local<v8::Value>* argv) ( 
v8::Local«v8::Value» cb v = object()-»Get(index); 
CHECK(cb_v->IsFunction()); 
return MakeCallback(cb_v.As<v8::Function>(), argc, argv); 


Timerwrap 对 象 通过 数组 的 索引 寻 址 ， 找 到 Timer 对 象 索 引 0 的 对 象 ， 而 对 其 赋 
值 的 是 在 lib/timer.;s 里 面 的 list._timer[kOnTimeout] = listOnTimeout; 。 
这 边 找到 的 对 象 是 个 Function ,后 面 忽略 domains 异常 处 理 等 ， 就 是 简单 的 调 
用 Function 对 象 的 Call 方法 , 并 且 传 人 上 文 提 到 的 Context 和 参数 。 


Local<Value> ret = callback->Call(recv, argc, argv); 


这 就 实现 了 C++ 对 JS 函数 的 调用 。 


ox 
s 


考 


e [1]. https://www.ibm.com/developerworks/cn/opensource/os-cn-v8engine/ 
e [2]. https://developers.google.com/v8/embed 


从 T hello world | 讲 起 


先 贴 一 段 代码 ， 再 熟悉 不 过 ，https:Wnodejs.org/en/about/， 和 学 习 每 一 种 语言 一 
样 ， 从 一 个 简单 「『hello world) 程序 对 node.js 有 个 感性 的 认识 。 


const http = require('http'); 
const hostname = '127.0.0.1'; 
const port = 1337; 


http.createServer((req, res) => { 
res.writeHead(200, { 'Content-Type': 'text/plain' }); 
res.end('Hello World\n'); 
}).listen(port, hostname, () => ( 
console.log( Server running at http://${hostname}:${port}/ ); 
3); 


我 们 从 第 一 句 代 码 看 看 到 底 涉及 了 多 少 核 心 模块 ， 让 我 们 开启 node.js 源码 分 析 之 
旅 吧 。 


$$ —4]: const http = require('http'); 就 涉及 到 2 个 模块 ， 分 别 是 module 
和 http 模块 。 


主体 代码 
http.createServer((req, res) => { 
res.writeHead(200, { 'Content-Type': 'text/plain' }); 
res.end('Hello World\n'); 


}).listen(port, hostname, () => ( 


3); 


。 首先 了 解 一 下 HTTP Server 的 继承 关系 ， 有 利于 更 好 的 理解 代码 。 


从 Thello world | i#2#2 


event.js:EventEmitter 
K 
_http_server.js:Server 


http.js:Server 


这 就 又 涉及 了 event 和 net 模 块 。 


T 


最 后 一 名 : 


console.log( Server running at http://${hostname}:${port}/. ); 


这 里 用 到 了 console 模 块 ， 但 却 没 有 通过 require 获取 ， 这 就 要 说 到 global 对 象 
了 ，Node.js 的 顶层 对 象 。 这 里 笔者 先 卖 个 关子 ， 后 面 会 在 global 章节 中 详细 讲 


如 果 想 查看 node 的 一 些 调试 日 志 ， 可 以 通过 设置 NODE_DEBUG 环境 变量 ， 比 
如 : 


NODE_DEBUG=HTTP, STREAM, MODULE, NET node http.js 


查看 V8 的 日 志 


node --trace http.js 


V 


x 


Cu 


结 


N 


一 个 简单 的 hello world 程序 却 涉及 了 多 个 模块 ， 背 后 却 是 Node 社 区 智慧 的 结晶 ， 
在 Web 服务， 异步 IO EHR Biko RAB AME fu! 


下 面 以 Linus Torvalds #) — 4) & $A È Node. js) 7$ 48 Z 2&8 o 
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从 Thello world | že 


Talk is cheap, show me the code. 
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模块 
If V8 is the engine of Node.js, npm is its soul! 
npm 世界 最 大 的 模块 仓库 ， 我 们 看 几 个 数据 : 


e ~21 万 模块 数量 
e 每 天 亿 级 模块 下 载 量 
e 每 周 10 亿 级 的 模块 下 周 量 


由 此 诞生 了 一 家 做 npm 包 管理 的 公司 npmjs.com . 


模块 加 载 准备 操作 
严格 来 讲 ，Node 里 面 分 以 下 几 种 模块 : 


e builtin module: Node 中 以 c++ 形式 提供 的 模块 ， 如 tcp_wrap、contextify 等 

e constants module: Node 中 定义 常量 的 模块 ， 用 来 导出 如 signal, openssl È ` 
文件 访问 权限 等 常量 的 定义 。 如 文件 访问 权限 中 的 O RDONLY > O CREAT ` 
signal 中 的 SIGHUP，SIGINT 等 。 

e native module: Node 中 以 JavaScript 形式 提供 的 模块 ， 如 http,https,fs 等 。 有 
些 native module 需要 借助 于 builtin module 实现 背后 的 功能 。 如 对 于 native 
模块 buffer , 还 是 需要 借助 builtin node_buffer.cc 中 提供 的 功能 来 实现 大 容量 
内 存 申请 和 管理 ， 目 的 是 能 够 脱离 V8 内 存 大 小 使 用 限制 。 

e 3rd-party module: 以 上 模块 可 以 统称 Node 内 建 模块 ， 除 此 之 外 为 第 三 方 模 
块 ， 典 型 的 如 express 模块 。 


builtin module 和 native module 生成 过 程 


node.cc::Binding("natives") 
P» native modules 
























node module* mod = 
get builtin module() 





g++ compile 
src/ builtin *.cc 


native JS module 的 生成 过 程 相 对 复杂 一 点 ， 把 node 的 源 代 码 下 载 下 来 ， 自 己 编 
译 后 ， 会 在 out/Release/obj/ gen 目录 下 生成 一 个 文件 node natives.h 。 


该 文件 由 js2c.py 生成 。 js2c.py 会 将 node 源 代码 中 的 lib 目录 下 所 有 js 文件 以 及 
src 目录 下 的 node.js 文件 中 每 一 个 字符 转换 成 对 应 的 ASCII 码 ， 并 存放 在 相应 的 
数组 里 面 。 


namespace node { 
const char node_native[] = {47, 47, 32, 67, 112 ...} 


const char console native[] = {47, 47, 32, 67, 112 ..} 


const char buffer native[] = {47, 47, 32, 67, 112 .) 


struct native {const char name; const char* source; size_t so 
urce len;); 


static const struct native natives[] = {{ "node", node native, 
sizeof(node native)-1 }, 


{“dgram”, dgram native, sizeof(dgram_native)-1 }, 
{“console”, console_native, sizeof(console_native)-1 }, 


("buffer", buffer native, sizeof(buffer native)-1 }, 


e builtin C++ module 生成 过 程 较为 简单 。 每 个 builtin C++ 模块 的 入 口 ， 都 会 通 
Z NODE MODULE CONTEXT AWARE BUILTIN 扩展 为 一 个 函数 。 例 如 
: T tcp wrap 模块 而 言 ， 会 被 扩展 为 函数 static void register tcp wrap 
(void) attribute((constructor)) ° #& GCC 的 同 CE 
attribute((constructor)) 修饰 的 函数 会 在 node 的 main() 函数 之 前 被 执行 ， 也 就 


是 说 ， 我们 的 builtin C++ 模块 会 被 main() 函数 之 前 被 加 载 进 modlist builtin 
^t # © modlist_builtin 是 一 个 struct node module 类 型 的 指针 ， 以 它 为 头 ， 
get builtin module() 会 遍历 查找 我 们 需要 的 模块 。 


e 对 于 node 自身 提供 的 模块 ， 其 实 无 论 是 native JS 模块 还 是 builtin C++ 模 
块 ， e ' RAR) YT ELF 格式 的 二 进 制 文件 node 
里 面 。 


e 而 对 这 两 者 的 提取 方式 却 不 一 样 。 对 于 JS 模块 ， 使 用 
process.binding(“natives”)， 而 对 于 C++ 模块 则 直接 用 get_builtin_module() 
得 到 ， 这 部 分 会 在 1.2 PHR o 


module binding 


在 node.cc 里 面 提供 了 一 个 函数 Binding()。 当 我 们 的 应 用 或 者 node 内 建 的 模块 调 
用 require() 来 引用 另 一 个 模块 时 ， 背 后 的 | eee 函数 。 
后 面 会 讲述 这 个 函数 如 何 支撑 require() 的 。 这 里 先 主 要 剖析 这 个 函数 。 


static void Binding(const FunctionCallbackInfo<Value>& args) ( 
Environment* env - Environment::GetCurrent(args); 


Local<String> module = args[0]->ToString(env->isolate()); 
node: :Utf8Value module_v(env->isolate(), module); 


Local<Object> cache = env->binding_cache_object(); 
Local<Object> exports; 


if (cache->Has(module)) { 
exports = cache->Get(module) ->ToObject(env->isolate()); 
args.GetReturnValue().Set(exports); 
return; 


// Append a string to process.moduleLoadList 
char buf[1024]; 
snprintf(buf, sizeof(buf), "Binding %s", *module v); 





Local<Array> modules = env-»module load list array(); 
uint32 t 1 = modules-»Length(); 


modules->Set(1, OneByteString(env->isolate(), buf)); 


node module* mod = get builtin module(*module v); 
if (mod != nullptr) { 
exports = Object: :New(env->isolate()); 
// Internal bindings don't have a"module" object, only expor 
GSS 
CHECK_EQ(mod->nm_register_func, nullptr); 
CHECK_NE(mod->nm_context_register_func, nullptr); 
Local<Value> unused = Undefined(env->isolate()); 
// **for builtin module** 
mod->nm_context_register_func(exports, unused, 
env->context(), mod->nm_priv); 
cache->Set(module, exports); 
} else if (!strcmp(*module v,"constants")) { 
exports = Object: :New(env->isolate()); 
// for constants 
DefineConstants(exports); 
cache->Set(module, exports); 
} else if (!strcmp(*module v,"natives")) { 
exports = Object: :New(env->isolate()); 
// for native module 
DefineJavaScript(env, exports); 
cache->Set(module, exports); 
) else { 
char errmsg[1024]; 
snprintf (errmsg, 
sizeof (errmsg), 
"No such module: %s", 
*module_v); 
return env->ThrowError (errmsg); 


args.GetReturnValue().Set(exports); 


e builtin 优先 级 最 高 。 对 于 任何 一 个 需要 绑 定 的 模块 ， 都 会 优先 到 builtin 模块 列 
表 modlist builtin 中 去 查找 。 查 找 过 程 非 常 简 单 ， 直 接 遍 历 这 个 列表 ， 找 到 模 
块 名 字 相 同 的 那个 模块 即 可 。 找 到 这 个 模块 后 ， 模 块 的 注册 函数 会 先 被 执行 ， 


且 将 一 个 重要 的 数据 exports 返回 。 对 于 builtin module 9 > exports object 
包含 了 builtin C++ 模块 暴露 出 来 的 接口 名 以 及 对 于 的 代码 。 例 如 对 模块 

tcp wrap RÈ > exports 包含 的 内 容 可 以 用 如 下 格式 表示 : ("TCP": “function 
code of TCPWrap entrance/”, “TCPConnectWrap”: "/function code of 
TCPConnectWrap entrance/") ° 


constants 模块 优先 级 次 之 。node 中 的 常量 定义 通过 constants 导出 。 导 出 的 
exports 格式 如 下 : CSIGHUP":1, “SIGKILL”:9, “SSL_OP_ALL”: 0x80000BFFL) 


e 对 于 native module 7S > A 3 中 除了 数组 node native 之 外 ， 所 有 的 其 它 模 
块 都 会 导出 到 exports。 格 式 如 下 : {* debugger’: _debugger_native , 
“module”: module native > “config” : config native ) 其 中 > 
_debugger_native > module_native 等 为 数组 名 ， 或 者 说 就 是 内 存 地 址 。 


对 比 上 面 三 类 模块 导出 的 exports 结构 会 发 现 对 于 每 个 属性 ， 它 们 的 值 代 表 着 完全 
不 同 的 意义 。 对 于 builtin 模块 而 言 ，exports 的 TCP 属性 值 代表 着 函数 代码 入 口 ， 
对 于 constants 模块 ，SIGHUP 的 属性 值 则 代表 一 个 数字 ， 而 对 于 native 模块 ， 
_debugger 的 属性 值 则 代表 内 存 地 址 (准确 说 应 该 是 .rodata 段 地 址 ) © 


模块 加 载 

我 们 仍旧 从 var http = require('http'); 说 起 。 

require 是 怎么 来 的 ， 为 什么 平 白 无 故 就 能 用 呢 ， 实 际 上 都 干 了 些 什么 ? 
e lib/module.js 的 中 有 如 下 代码 。 


// Loads a module at the given file path. Returns that modul 
Cus 

// “exports” property. 

Module.prototype.require = function(path) { 

assert(path, 'missing path'); 

assert(typeof path ---'string','path must be a string'); 
return Module. load(path, this); 


}; 


首先 assert 模块 进行 简单 的 path 变量 的 判断 ， 需 要 传人 的 path 是 一 个 string 
类 型 。 


// Check the cache for the requested file. 
// 1. If a module already exists in the cache: return its export 
s object. 
// 2. If the module is native: call "NativeModule.require()' wit 
h the 
7d filename and return the result. 
// 3. Otherwise, create a new module for the file and save it to 

the cache. 
va Then have it load the file contents before returning its 
exports 
T object. 
Module._load = function(request, parent, isMain) { 

if (parent) { 

debug('Module. load REQUEST %s parent: %s', request, parent. 

id); 

} 


var filename = Module._resolveFilename(request, parent); 
var cachedModule = Module._cache[filename]; 


if (cachedModule) { 
return cachedModule.exports; 


if (NativeModule.nonInternalExists(filename)) { 
debug('load native module %s', request); 
return NativeModule.require(filename); 

var module = new Module(filename, parent); 

if (isMain) { 
process.mainModule = module; 
module.id = '.'; 


Module._cache[filename] = module; 


var hadException = true; 


Dry vt 
module.load(filename); 


hadException - false; 
) finally { 
if (hadException) { 


delete Module. cache[filename]; 


return module.exports; 


e 


e 如 果 模 块 在 缓存 中 ， 返 回 它 的 exports 对 象 。 
e 如 果 是 原生 的 模块 ， 通 过 调用 NativeModule.require() 
e 否则 ， 创 建 一 个 新 的 模块 ， 并 保存 到 缓存 中 。 


让 我 们 再 深度 遍历 的 方式 查看 代码 到 


NativeModule.require 


ok 


-器 


NativeModule.require = function(id) { 
if (id =='native_module') { 
return NativeModule; 


var cached = NativeModule.getCached(id); 
if (cached) { 
return cached.exports; 


if (!NativeModule.exists(id)) { 

throw new Error('No such native module '+ id); 
process.moduleLoadList.push('NativeModule' + id); 
var nativeModule - new NativeModule(id); 


nativeModule.cache(); 
nativeModule.compile(); 


return nativeModule.exports; 
J; 
我 们 看 到 ， 缓 存 的 策略 这 个 贯穿 在 node 的 实现 中 。 


e 同样 的 ， 如 果 在 cache 中 存在 ， 则 直接 返回 exports 对 象 。 
e 如 果 不 在 ， 则 加 入 到 moduleLoadList 数组 中 ， 创 建新 的 NativeModule 对 
Zo 


TF d X 4E — 6) 


nativeModule.compile(); 


具体 实现 在 node.js v: 


NativeModule.getSource = function(id) { 
return NativeModule. source[id]; 


HH 


NativeModule.wrap - function(script) ( 

return NativeModule.wrapper[0] + script + NativeModule.wrapper[ 
1]; 
J; 


NativeModule.wrapper = ['(function (exports, require, module, __ 
filename, _ dirname) (','*n));' ]; 


NativeModule.prototype.compile - function() ( 
var source - NativeModule.getSource(this.id); 
source - NativeModule.wrap(source); 


var fn = runInThisContext(source, { 
filename: this.filename, 
lineOffset: 0 

3); 


fn(this.exports, NativeModule.require, this, this.filename); 


this.loaded - true; 


n -———————————————————————— íi 


wrap 函数 将 http.js 包 庄 起 来 , 交 由 runInThisContext 编译 源码 ， 返 回 fn $ 
数 , 依次 将 参数 传人 。 


process 


KA A node.js 的 底层 C++ 传递 给 javascript 的 一 个 变量 process， 在 一 开始 运 和 
node.js 时 ， 程 序 会 先 配置 好 process Handleprocess = 
SetupProcessObject(argc, argv); 
e 然后 把 process 作为 参数 去 调用 js 主 程序 src/node.js 返回 的 函数 ， 这 样 
process 就 传递 到 javascript 里 了 。 


//node.cc 

// 通过 MainSource() 获取 已 转化 的 src/node.js 源码 ， 并 执行 它 

Local f value = ExecuteString(MainSource(), IMMUTABLE_STRING(“no 
de.js")); 

// 执行 src/node.js 后 获得 的 是 一 个 函数 ， 从 node.,js 源码 可 以 看 出 : 
//node.js 

//(function(process) { 

// global = this; 

// 


MUTA 


Local f = Local::Cast(f value); 
// 创建 函数 执行 环境 ， 调 用 函数 ， 把 process fA 


Localglobal = v8::Context::GetCurrent()->Global(); 
Local args[1] = { 
Local: :New(process ) 


iz 


f->Call(global, i, args); 


vm 


runInThisContext 又 是 怎么 一 回 事 呢 ? 


var ContextifyScript = process.binding('contextify').Contextif 
yScript; 
function runInThisContext(code, options) { 
var script = new ContextifyScript(code, options); 
return script.runInThisContext(); 


e node.cc 的 Binding 中 有 如 下 调用 ， 对 模块 进行 注册 ， mod- 
>nm_context_register_func(exports, unused, env->context(), mod- 


>nm_priv); 


我 们 看 下 node.h 中 mod 数据 结构 的 定义 : 


struct node_module { 
int nm_version; 
unsigned int nm_flags; 
void* nm dso handle; 
const char* nm filename; 
node::addon register func nm register func; 
node::addon context register func nm context register func; 
const char* nm modname; 
void* nm priv; 
struct node module* nm link; 


e 


e node.h 中 还 有 如 下 宏 定 义 ， 接 着 往 下 看 ! 


#define NODE_MODULE_CONTEXT_AWARE_X(modname, regfunc, priv, flag 
S) N 
extern "c" { 
X 
static node::node module module = 
N 


\ 
NODE_MODULE_VERSION, 
\ 

flags, 


M 


NULL, 
N 
J FILE , 
N 
NULL, 
N 
(node::addon context register func) (regfunc), 
N 
NODE STRINGIFY(modname), 
N 
priv, 
N 
NULL 
N 
H 
N 
NODE C CTOR( register ## modname) { 
N 
node module register(& module); 
N 
j 
N 


#define NODE MODULE CONTEXT AWARE BUILTIN(modname, regfunc) 
N 
NODE MODULE CONTEXT AWARE X(modname, regfunc, NULL, NM F BUILT 
IN) X 


e node contextify.cc 中 有 如 下 宏 调 用 ， 终 于 看 清楚 了 ! 结合 前 面 几 点 ， 实 际 上 
就 是 把 node module 的 nm context register func 与 node::InitContextify 进 
行 了 绑 定 。 


NODE_MODULE_CONTEXT_AWARE_BUILTIN(contextify, node::InitContexti 
fy); 


我 们 回溯 而 上 ， 通 过 
node module register(& module); , process.binding('contextify') --> 
mod-»nm context register func(exports, unused, env-»context(), mod- 


»nm priv); --> node::InitContextify() . 


这 样 通过 env-»SetProtoMethod(script tmpl,"runInThisContext", 
RunInThisContext); > #8 T 『runlnThisContextJ 和 RunInThisContext . 


runInThisContext 是 将 被 包装 后 的 源 字符 串 转 成 可 执行 函数 ， (runlnThisContext 
来 自 contextify 模块 ) ，runlnThisContext 的 作用 ， 类 似 eval， 再 执行 这 个 被 eval 
后 的 函数 。 


这 样 就 成 功 加 载 了 native 模块 , 标记 this.loaded = true; 


`N 


` 


i 


总 结 


C 


Node.js 通过 cache 解决 无 限 循 环 引 用 的 问题 , 也 是 系统 优化 的 重要 手段 ， 通 过 以 
空间 换 时 间 ， 使 得 每 次 加 载 模块 变 得 非常 高 效 。 


在 实际 的 业务 开发 中 ， 我 们 从 堆 的 角度 观察 node 启动 模块 后 ， 缓 存 了 大 量 的 模 
块 ， 包 括 第 三 方 的 模块 ， 有 的 可 能 只 加 载 使 用 一 次 。 笔 者 觉得 有 必要 有 一 种 模块 的 
HRILA [1], 可 以 降低 对 V8 堆 内 存 的 占用 ， 从 而 提升 后 续 垃圾 回收 的 效率 。 


[1].https://github.com/nodejs/node/issues/5895 


Global 对 象 


所 有 属性 都 可 以 在 程序 的 任何 地 方 访 问 ， 即 全 局 变量 。 在 javascript 中 ， 
window 是 全 局 对 象 ， 而 node.js 的 全 局 对 象 是 global， 所 有 全 局 变 ae R 
的 属性 ， 如 : console ` process ° 


Be Tey Rt RA EH EE 
global 最 根本 的 作用 是 作为 全 局 变量 的 宿主 。 满 足以 下 条 件 成 为 全 局 变量 。 


e 在 最 外 层 定 义 的 变量 
e 全 局 对 象 的 属性 
e BAR LH ES (未 定义 直接 赋值 的 变量 ) 


node.js 中 不 可 能 在 最 外 层 定 义 变量 ， 因 为 所 有 的 用 户 代码 都 是 属于 当前 模块 的 ， 而 
模块 本 身 不 是 最 外 层 上 下 文 。node js 中 也 不 提倡 自 定 义 全 局 变量 。 


Node 提 供 以 下 几 个 全 局 对 象 ， 它 们 是 所 有 模块 都 可 以 调用 的 。 


e global: 表示 Node 所 在 的 全 局 环境 ， 类 似 于 浏览 器 的 window 对 象 。 需 要 注意 的 
是 ， 如 果 在 浏览 器 中 声明 一 个 全 局 变量 ， 实 际 上 是 声明 了 一 个 全 局 对 象 的 属 
性 ， = 1 等 同 于 设置 window.x = 1， 但 是 Node 不 是 这 样 ， 至 少 在 模块 
中 不 是 这 样 (REPL 环 境 的 行为 与 浏览 器 一 致 ) 。 在 模块 文件 中 ， 声 明 var x = 
1， 该 变量 象 的 属性 ，global.x 等 于 undefined。 这 是 因为 模块 的 全 
局 变量 都 是 该 模块 私有 的 ， 其 他 模块 无 法 取 到 。 


e process : 该 对 象 表示 Node 所 处 的 当前 进程 ， 人 允许 开 发 者 与 该 进程 互动 。 


e console : 指向 Node 内 置 的 console 模 块 ， 提 供 命 令 行 环境 中 的 标准 输入 、 标 准 
输 出 功能 AG ° 


Node 还 提供 一 些 全 局 函数 。 


e setTimeout() : ATA SUE > BHAA AA o KHIM * WH 
决 于 系统 因素 。 间 隔 的 毫秒 数 在 1 毫秒 到 2,147,483,647 毫 秒 (224.8) 之 
间 。 如 果 超 过 这 个 范围 ， 会 被 自动 改 为 1 毫秒 。 该 方法 返回 一 个 整数 ， 代 表 这 
个 新 建 定时 器 的 编号 。 

e clearTimeout() : 用 于 终止 一 个 setTimeout 方 法 新 建 的 定时 器 。 


e setinterval(): 用 于 每 隔 一 定 毫 秒 调 用 回调 函数 。 由 于 系统 因素 ， 可 能 无 法 保证 
每 次 调用 之 间 正 好 间隔 指定 的 毫秒 数 ， 但 只 会 多 于 这 个 间隔 ， 而 不 会 少 于 它 。 
B x 的 毫秒 数 必 须 是 1 到 2,147,483,647 (大 约 24.8 天 ) 之 间 的 整数 ， 如 果 超 过 
这 个 范围 ， 会 被 自动 改 为 1 毫秒 。 该 方法 返回 一 个 整数 ， 代 表 这 个 新 建 定时 器 
的 编号 。 

e clearlnterval() : 终止 一 个 用 setlnterval 方 法 新 建 的 定时 器 。 

e require() : enone o 

e Buffer() : 用 于 操作 二 进 制 数据 。 


Node 提 供 两 个 全 局 变量 ， 都 以 两 个 下 划 线 开头 。 


e filename : 指向 当前 运行 的 脚本 文件 名 。 

e dirname : 指向 当前 运行 ds 的 目录 。 除 此 之 外 ， 还 有 一 些 对 象 实 际 
上 是 模块 内 部 的 局 部 变量 ， 指 向 的 对 象 根 据 模块 不 同 而 不 同 ， 但 是 所 有 模块 都 
适用 ， 可 以 看 作 是 伪 全 局 变量 ， 主 要 为 module, module.exports, exports 等 。 


module.exports vs exports 


如 果 想 不 借助 global， 在 不 同 模块 之 间 共 享 代码 ， 就 需要 用 到 exports 属 性 。 令 人 有 

些 迷 惑 的 是 ， 在 node.js 里 ， 还 有 另外 一 个 属性 ， 是 module.exports。 一 般 情况 下 ， 

这 2 个 属性 的 作用 是 一 致 的 ， 但 是 如 果 对 exports 或 者 module.exports 赋 值 的话 ， 又 
会 呈现 出 令 人 奇怪 的 结果 。 


首先 ，exports 和 module.exports 都 是 某 个 对 象 的 引用 (reference) ， 和 初始 情况 下 ， 
它们 指向 同一 个 object， 如 果 不 修改 module.exports 的 引用 的 话 ， 这 个 object 稍 后 会 
被 导出 。 


exports module.exports 


Object 


所 以 如 果 只 是 给 对 象 添加 属性 ， 不 改变 exports 和 module.exports 的 引用 目标 的 话 ， 
是 完全 没有 问题 的 。 


但 是 有 时 候 ， 希 望 导出 的 是 一 个 构造 函数 ， 那 么 一 般 会 这 么 


An 
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module.exports = function (name, age) { 
this.name = name; 
this.age = age; 


exports.sex = "male"; 


var Person = require("./b"); 

var person = new Person("Tony", 33); 
console.log(person); // {name:"Tony", age:33} 
console.log(Person.sex); // undefined 


这 个 SeXx 属 性 不 会 导出 ， 因 为 引用 关系 已 经 改变 : 


exports module.exports 


| | 
V V 


function Object 


而 node.js 导 出 的 ， 永 远 是 module。exports 指 向 的 对 象 ， 在 这 里 就 是 function。 所 以 
exports 指 向 的 那个 object， 现 在 已 经 不 会 被 导出 了 ， 为 其 增加 的 属性 当然 也 就 没 用 
Y 


如 果 希 望 把 Sex 属 性 也 导出 ， 就 需要 这 样 写 : 


exports = module.exports = function (name, age) ( 
this.name = name; 
this.age = age; 


exports.sex = "male"; 
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事件 循环 


"Event Loop 是 一 个 程序 结构 ， 用 于 等 待 和 发 送 消息 和 事件 。 (a programming 


construct that waits for and dispatches events or messages in a program.) 


REQUESTS, ETC A 


INTENSIVE 


EVENT LOOP _OPERATION 


(single thread) 


WY 
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事件 循环 


事件 循环 的 职责 ， 就 是 不 断 得 Specie N 
它们 订阅 这 个 事件 的 时 间 顺 序 ， 依 次 执行 。 当 这 个 事件 的 所 有 处 理 器 都 被 执行 完 
之 后 ， 事 件 循环 就 会 开始 继续 等 待 下 一 个 事件 的 触发 ， 不 断 往复 。 


当 同 时 并 发 地 处 理 多 个 请 求 时 ， 以 上 的 概念 也 是 正确 的 ， 可 以 这 样 理解 : 在 单个 的 
线程 中 ， 事 件 处 理 器 是 一 个 一 个 按 顺序 执行 的 。 


即 如 果 某 个 事件 绑 定 了 两 个 处 理 器 ， 那 么 第 二 个 处 理 器 会 在 第 一 个 处 理 器 执行 完毕 
后 ， 才 开始 执行 。 在 这 个 事件 的 所 有 处 理 器 都 执行 完毕 之 前 ， 事 件 循 环 不 会 去 检查 
是 否 有 新 的 事件 触发 。 在 单个 线程 中 ， 一 切 都 是 有 顺序 地 一 个 一 个 地 执行 的 ! 


Node.js 中 的 事件 循环 


Node 采 用 V8 作 为 JavaScript 的 执行 引擎 ， 同 时 使 用 libuv 实 现 事 件 驱动 式 异 步 JO。 
其 事件 循环 就 是 采用 了 libuv 的 默认 事件 循环 。 在 src/node.cc 中 ， 


Environment* env = CreateEnvironment ( 
node_isolate, 
uv_default_loop(), 
context, 
argc, 
argv, 
exec_argc, 
exec argv); 


这 段 代 码 建 立 了 一 个 node 执 行 环境 ， 可 以 看 到 第 三 行 的 uv_default loop() » 3t 

libuv 库 中 的 一 个 函数 ， 它 会 初始 化 uv 库 本 身 以 及 其 中 的 default_loop_struct， 并 返 

回 一 个 指向 它 的 指针 default loop_ptr。 之 后 ，Node 会 载 入 执行 环境 并 完成 一 些 设 
置 操 作 ， 然 后 启动 event loop : 


bool more; 


do { 
more = uv_run(env->event_loop(), UV RUN ONCE); 
if (more == false) { 


EmitBeforeExit(env); 
// Emit "beforeExit if the loop became alive either after e 
mitting 
// event, or after running some callbacks. 
more = uv loop alive(env-»event ECT 
if (uv run(env-»-event loop(), UV RUN NOWAIT) !- 0) 
more - true; 


J 
} while (more == true); 
code - EmitExit(env); 
RunAtExit(env); 


more 用 来 标识 是 否 进行 下 一 轮 循 环 。 env->event_loop() 会 返回 之 前 保存 在 env 中 的 
default loop ptr > Uv_run 部 数 将 以 指定 的 UV_RUN oo 3 Zh libuv 49 event 
loop。 在 这 种 模式 下 ，Uv_run 会 至 少 处 理 一 个 事件 : 这 意味 着 ， 如 果 当 前 事件 队列 
中 没有 需要 处 理 的 |/O 事 件 ，Uv_run 会 阻塞 住 ， 直 到 Picus Php 或 者 下 一 
个 定时 器 时 间 到 。 如 果 当 前 没有 IO 事件 也 没有 定时 器 事件 ， 则 uv_run 返 回 false 。 


接 下 来 Node 会 根据 more 的 情况 决定 下 一 步 操 作 : 


e 如 果 more 为 true， 则 继续 运行 下 一 轮 loop。 

e 如 果 more 为 false， 说 明 已 经 没有 等 待 处 理 的 事件 了 ，EmitBeforeExit(env); 触 
发 进程 的 'beforeExit' 事 件 ， 检 查 并 处 理 相应 的 处 理 汐 数 ， 完 成 后 直接 跳出 特 
环 。 


最 后 触发 'exit' 事 件 ， 执 行 相应 的 回调 函数 ，Node 运 行 结 束 ， 后 面 会 进行 一 些 资源 释 
放 操 作 。 


在 libuv 中 ，event loop 会 在 每 次 循环 的 开始 更 新 自己 的 time 从 而 实现 计时 功能 ， 
MO 事件 则 分 为 两 类 : 


e Network I/O 是 使 用 系统 提供 的 非 阻塞 式 |/O 解 决 方案 ， 例 如 在 Linux 上 使 用 
epoll，windows 上 使 用 IOCP 。 


e. 文件 操作 和 DNS 操作 没有 (很 好 的 ) 系统 解决 方案 ， 因 此 libuv 自 建 了 线程 池 ， 
在 其 中 进行 阻塞 式 JO。 


另外 我 们 也 可 以 将 自 定 义 的 函数 抛 到 线程 池 中 运行 ， 在 运行 结束 后 主线 程 会 执行 相 
应 的 回调 函数 ， 不 过 Node 并 没有 将 这 一 项 功 e ee ， 也 就 是 说 只 用 
原生 Node 是 无 法 在 JavaScript 中 开启 新 的 线程 进行 并 行 执行 的 。 


process.nextTick 


false 

uv__loop_alive(loop) ? uv__update_time(loop) & return; 
uv__update_time(loop) 

uv__run_timers(loop) nite 
uv__run_pending(loop) 

uv__run_idle(loop) 

uv__run_prepare(loop) 
uv__io_poll(loop, timeout) 

uv... run, check(loop) M 

setimmediate 

run_closing_handles(loop) & retukn; 
















setTimeout 






Where is process.nextTick ? 













uy, 


带 着 这 个 问题 ， 我 们 看 看 JS 层 的 nextTick 是 怎么 被 驱动 。 


在 入 口 点 src/node.js , processNextTick 方法 构建 了 process.nextTick 
API ° 


process. tickCallback 作为 nexttick 的 回调 函数 ， 挂 到 了 process WH 
上 ， 由 C++ 层面 回调 使 用 。 


startup.processNextTick = function() { 
var nextTickQueue = []; 
var pendingUnhandledRejections = []; 
var microtasksScheduled = false; 


// Used to run V8's micro task queue. 
var _runMicrotasks = {}; 


// *Must* match Environment: :TickInfo: :Fields in src/env.h. 
var kIndex - 0; 
var kLength - 1; 


process.nextTick - nextTick; 

// Needs to be accessible from beyond this scope. 
process. tickCallback -  tickCallback; 

process. tickDomainCallback -  tickDomainCallback; 


// This tickInfo thing is used so that the C++ code in src/n 
ode.cc 

// can have easy access to our nextTick state, and avoid unn 
ecessary 

//u«caltscinto Jos land: 

const tickInfo = process. setupNextTick( tickCallback, | runM 
icrotasks); 

// AB... 


通过 process. setupNextTick 注册  tickCallback 到 env 的 
tick callback function 上 。 


在 src/async wrap.cc 文件 中 ， 我 们 发 现 对 其 的 调用 如 下 : 


Local<Value> AsyncWrap: :MakeCallback(const Local<Function> cb, 
int argc, 
Local<Value>* argv) { 


/ / 


Environment::TickInfo* tick info = env()->tick_info(); 


if (tick info->in tick()) ( 
return ret; 


if (tick info-»length() == 0) { 
env()->isolate()->RunMicrotasks(); 


if (tick_info->length() == 0) { 
tick info-»set index(9); 
return ret; 


tick info-»set in tick(true); 
env()-»tick callback function()-»Call(process, 0, nullptr); 


tick info-»set in tick(false); 


Jl 


4H nextTick 任务 时 ， env()->isolate()->RunMicrotasks(); 会 驱动 
Promise 任务 执行 。 


否则 会 调用 tick callback function ,也 就 是 _tickCallback ° 
看 到 这 里 我 也 有 个 疑问 ， 如 果 没 有 异步 1D 呢 ， 怎 么 驱动 呢 ? 


我 们 来 到 lib/module.js ,如 下 


// bootstrap main module. 
Module.runMain = function() { 
// Load the main module--the command line argument. 
Module. load(process.argv[1], null, true); 
// Handle any nextTicks added in the first tick of the program 
process. tickCallback(); 


jo 
Module. load 加 载 主 脚本 后 ， 就 调用 _tickCallback , 处理 第 一 次 的 tick 
Fo 


所 以 上 面 的 疑问 有 了 答案 ， nextTick 主要 在 uv io poll 驱动。 为 什么 说 主 
要 呢 ? 因为 还 可 能 在 Timer 模 块 驱动 ， 具 体 细 节 留 给 读者 去 研究 啦 。 


e 
D 


考 


e http://acemood.github.io/2016/02/01/event-loop-in-javascript/ 


Timer £5 ££ 1x: 


涉及 源码 


e lib/timers.js 

e src/timer_wrap.cc 

e deps/uv/src/unix/timer.c 
e deps/uv/src/heap-inl.h 


主要 分 为 javascript 层面 的 实现 和 libuv 层面 的 实现 , 而 timer_ wrap.cc 作为 一 个 
bridge, 完 成 javascript 和 C++ 的 交互 调用 。 


使 用 场景 
定时 器 主要 的 使 用 场景 或 者 说 适用 场景 : 


e 定时 任务 ， 比 如 业务 中 定时 检查 状态 等 ; 
e 起 时 控制 ， 比 如 网 络 超时 控制 重 传 。 


在 node.js 的 实现 中 ， 


function responseOnEnd() { 
// 4% 
debug('AGENT socket keep-alive'); 
if (req.timeoutCb) { 
sSocket.setTimeout(9, req.timeoutCb); 
req.timeoutCb - null; 


你 可 能 会 有 疑问 : 为 啥 在 HTTP. 模块 要 用 呢 ? 

我 们 知道 HTTP 协 议 采 用 “请 求 -应 答 ” 模 式 ， 当 使 用 普通 模式 ， 即 非 KeepAlive 模 式 
时 ， 每 个 请 求 /应 答 客户 和 服务 器 都 要 新 建 一 个 连接 ， 完 成 之 后 立即 断 开 连 接 
(HTTP 协 议 为 无 连接 的 协议 ) ; 当 使 用 Keep-Alive 模 式 ( 又 称 持久 连接 、 连 接 重 


用 ) 时 ，Keep-Alive 功 能 使 客户 端 到 服务 器 端的 连接 持续 有 效 ， 当 出 现 对 服务 器 的 
后 继 请 求 时 ，Keep-Alive 功 能 避免 了 建立 或 者 重新 建立 连接 。 


if (req.httpVersionMajor < 1 || req.httpVersionMinor < 1) { 
this.useChunkedEncodingByDefault = chunkExpression.test(req. 
headers.te); 
this.shouldKeepAlive = false; 
} 


HTTP/1.0 中 默认 是 关闭 的 ， 需 要 在 http 头 加 入 "Connection: Keep-Alive" > 4 482 M 
Keep-Alive ; http/1.1 中 默认 启用 Keep-Alive， 如 果 加 入 "Connection: close"， 才 关 
闭 。 


目前 大 部 分 浏览 器 都 是 用 HTTP/1.1 协 议 ， 也 就 是 说 默认 都 会 发 起 Keep-Alive 的 连接 
HRT > Node.js 针对 2 种 协议 按 上 述 代 码 做 了 判断 处 理 。 


当然 了 ， 这 个 连接 不 能 就 这 么 一 直 保 持 着 ， 所 以 一 般 都 会 有 一 个 超时 时 间 ， 超 过 这 
个 时 间 客 户 端 还 没有 发 送 新 的 http 请 求 ， 那 么 服务 器 就 需要 自动 断 开 从 而 继续 为 其 
他 客户 端 提 供 服 务 。 Node.js 的 HTTP 模块 对 于 每 一 个 新 的 连接 创建 一 个 socket 对 
象 ， 调 用 socket.setTimeout 设 置 一 个 定时 器 用 于 超时 后 自动 断 开 连 接 。 


数据 结构 选择 


一 个 Timer 本 质 上 是 这 样 的 一 个 数据 结构 : deadline 越 近 的 任务 拥有 越 高 优先 级 ， 提 
供 以 下 3 种 基本 操作 : 


e schedule 新 增 任 务 
e cancel 删除 任务 
e expire 执行 到 期 的 任务 


实现 方式 schedule cancel expire 
基于 链表 O(1) O(n) O(n) 
基于 排序 链表 O(n) O(1) O(1) 
基于 最 小 堆 O(lgn) O(1) O(1) 
基于 时 间 轮 O(1) O(1) O(1) 


timer 的 实现 历经 变迁 ， 每 次 变迁 都 是 思维 碰撞 的 火花 ， 让 我 们 走 进 源码 ， 细 细 品 
味 o 


libuv 实现 


数据 结构 -最 小 堆 


最 小 堆 首 先是 二 又 堆 ， 二 又 堆 是 完全 二 元 树 或 者 是 近似 完全 二 元 树 ， 它 分 为 两 种 : 
最 大 堆 和 最 小 堆 。 最 大 扒 : 父 结 点 的 键 值 总 是 大 于 或 等 于 任何 一 个 子 节点 的 键 值 ; 
最 小 堆 : 父 结 点 的 键 值 总 是 小 于 或 等 于 任何 一 个 子 节 点 的 键 值 。 示 意图 如 下 : 
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节点 定义 在 deps/uv/src/heap-inl.h， 如 下 : 


struct heap_node { 
struct heap_node* left; 
struct heap node* right; 
struct heap node* parent; 


m 


Š Enoch 
Timer 解读 


/* A binary min heap. The usual properties hold: the root is th 
e lowest 

* element in the set, the height of the tree is at most log2(no 
des) and 

* it's always a complete binary tree. 

x 

* The heap function try hard to detect corrupted tree nodes at 
the cost 

* of a minor reduction in performance. Compile with -DNDEBUG t 
o disable. 

uri 
struct heap { 

struct heap node* min; 

unsigned int nelts; 


HH 


这 边 我 们 可 以 清楚 的 看 到 ， 最 小 堆 采 用 指针 组 织 数据 ， 而 不 是 数组 。 min 始终 指 
向 最 小 的 节点 如 果 存在 的 话 。 作 为 一 个 排序 的 集合 ， 它 还 需要 一 个 用 户 指定 的 比较 
函数 ， 决 定 哪 个 节点 更 小 ， 或 者 说 当 过 期 时 间 一 样 时 ， 决 定 他 们 的 次 序 。 毕 竞 没有 
规则 不 成 方圆 。 


57 


static int timer less than(const struct heap node* ha, 
const struct heap node* hb) { 
const uv timer t* a; 
const uv timer t* b; 


feb) 
ll 


container_of(ha, const uv_timer_t, heap_node); 


o 
ll 


container_of(hb, const uv_timer_t, heap_node); 


if (a->timeout < b->timeout) 
return 1; 

if (b->timeout < a->timeout) 
return 0; 


/* Compare start id when both have the same timeout. start id 
is 
* allocated with loop->timer_counter in uv_timer_start(). 
/ 
if (a->start_id < b->start_id) 
return 1; 
if (b->start_id < a->start_id) 
return 0; 


fate ur C 


这 边 我 们 可 以 看 到 ， 首 先 比较 两 者 的 timeout ， 如 果 二 者 一 样 ， 则 比较 二 者 
被 schedule 的 jd, 该 id 由 loop->timer_counter 递增 生成 ， 在 调用 


uv timer start 时 赋值 给 start id 


具体 实现 


62 int uv timer start(uv timer t* handle, 


63 uv timer cb cb, 
64 uint64 t timeout, 
65 uint64 t repeat) ( 
66 uint64 t clamped timeout; 

67 

68 if (cb == NULU) 

69 return -EINVAL; 

70 

mA if (uv. is active(handle)) 

72 uv timer stop(handle); 

Te 


74 clamped timeout = handle->loop->time + timeout; 

15 if (clamped_timeout < timeout) 

76 clamped timeout = (uint64 t) -1; 

TAU 

78 handle->timer_cb = cb; 

79 handle->timeout = clamped_timeout; 

80 handle->repeat = repeat; 

81 /* start id is the second index to be compared in uv time 
r-cmp( ). ^7 

82 handle->start_id = handle->loop->timer_counter++; 

83 

84 heap_insert((struct heap*) &handle->loop->timer_heap, 


85 (struct heap_node*) &handle->heap_node, 
86 timer_less_than); 

87 uv__handle_start(handle); 

88 

89 ie Un 本 六 

90 } 


e L68-L69, 做 参数 的 检查 ， 错 误 则 返回 -EINVAL ° 

e L71-L72， 如 有 是 一 个 活跃 的 timer, 则 立即 停止 它 。 

e L74-L82, 参数 赋值 ， 上 面 提 到 的 start id 就 是 由 timer counter 自 增 得 
8| 

e L84-L86, 插入 timer 5 RER DH > MAHAR ABA O(lgn) ° 

e。L87， 标 记 和 句柄 非 活 跃 ， 并 加 入 统计 。 


93 int uv_timer_stop(uv_timer_t* handle) { 

94 if (!uv__is_active(handle) ) 

95 return os 

96 

97 heap_remove((struct heap*) &handle->loop->timer_heap, 
98 (struct heap_node*) &handle->heap_node, 
99 timer_less_than); 

100 uv handle stop(handle); 

101 

102 rete 9 

103 ) 


L94 » 4& & handle, 如 果 是 非 获取 的 ， 则 说 明 没有 局 动 过 ， 则 返回 成 功 。L97-L99， 
从 最 小 堆 中 删除 timer 的 节点 。L100, € & 6148 > HiT AL 9 


了 解 了 如 何 开启 和 关闭 一 个 定时 器 ， 我 们 看 如 何 调度 定时 器 。 
int uv run(uv loop t* loop, uv run mode mode) 1 


while (r != 0 && loop-»stop flag == 0) { 
uv update time(loop); 
uv run timers(loop); 
ran pending = uv run pending(loop); 


在 node.js 的 event loop 中 ， 更 新 时 间 后 则 立即 调用 uv run timers ， 可 见 
timer 作为 一 个 外 部 系统 依赖 的 模块 ， 优 先 级 是 最 高 的 。 


150 void uv__run_timers(uv_loop_t* loop) { 
151 struct heap node* heap node; 
152 uv_timer_t* handle; 


153 

154 ror r g 

155 heap_node = heap_min((struct heap*) &loop->timer_heap); 
156 if (heap_node == NULL) 

157 break; 

158 

159 handle = container_of(heap_node, uv_timer_t, heap_node); 
160 if (handle->timeout > loop->time) 

161 break; 

162 

163 uv timer stop(handle); 

164 uv timer again(handle); 

165 handle->timer_cb(handle); 

166 } 

167 } 


L155-L157, 取出 最 小 的 timer 节 点 ,如 果 为 空 ， 则 跳出 循环 。L159-L161, 通过 
heap node 的 偏 移 拿 到 对 象 的 首 地 址 ， 如 果 最 小 的 timeout 时 间 大 于 当前 的 时 间 ， 
则 说 明 过 期 时 间 还 没 到 ， 则 退出 循环 。L163-L165, 删除 timer, 如 果 是 需要 重复 执 
行 的 定时 器 ， 则 通过 调用 uv timer again 再 次 加 入 , L165 执行 timer 的 callback 
任务 后 循环 。 


改进 的 分 级 时 间 轮 实现 
https://github.com/libuv/libuv/pull/823 
桥接 层 


阅读 此 节 需 要 node.js addon 的 知识 ， 这 边 默认 你 已 经 了 解 。 


43 env->SetProtoMethod(constructor, "start", Start); 


44 env->SetProtoMethod(constructor, "stop", Stop); 
45 
46 target->Set(FIXED_ONE_BYTE_STRING(env->isolate(), "Timer" 
), 
47 constructor->GetFunction()); 
‘| NENNEN nj 








Timer 的 addon 导出 start , stop 的 方法 ， 供 js 层 调用 。 


pak static void Start(const FunctionCallbackInfo<Value>& args) 


1 

M2 Timerwrap* wrap = Unwrap<Timerwrap>(args.Holder()); 
Xe 

74 CHECK(HandleWrap::IsAlive(wrap)); 

Ths) 

76 int64 t timeout = args[0]->IntegerValue(); 

TE int64 t repeat = args[1]->IntegerValue(); 

78 int err = uv_timer_start(&wrap->handle_, OnTimeout, time 
out, repeat); 

79 args.GetReturnValue().Set(err); 

80 } 

81 

82 static void Stop(const FunctionCallbackInfo«Value»& args) 
{ 

83 Timerwrap* wrap = Unwrap<TimerWrap>(args.Holder()); 
84 

85 CHECK(HandleWrap::IsAlive(wrap)); 

86 

87 int err = uv timer stop(&wrap-»-handle ); 

88 args.GetReturnValue().Set(err); 

89  ) 


Bp ——————————————— essem] n] 


Start 需要 提供 两 个 参数 ，1. 超 时 时 间 timeout; 2. 重复 执行 的 周期 。L78 38 
用 uv timer start ,其 中 OnTimeout 是 该 定时 器 的 回调 函数 。 我 们 看 下 该 函数 
实现 : 


91 
92 
93 
94 
95 
96 
97 


static void OnTimeout(uv_timer_t* handle) { 
Timerwrap* wrap = static_cast<TimerWrap*>(handle->data); 
Environment* env = wrap->env(); 
HandleScope handle_scope(env->isolate()); 
Context: :Scope context scope(env-»context()); 
wrap->MakeCallback(kOnTimeout, ©, nullptr); 


奇 ， 怎 么 就 由 handle->data 取 到 对 象 指针 了 呢 ? 


HandleWrap: :Handlewrap(Environment* env, 


Local<Object> object, 
uv_handle_t* handle, 

Asyncwrap: :ProviderType provider, 
AsyncWrap* parent) 


: AsyncWrap(env, object, provider, parent), 


flags (9), 
handle (handle) { 


handle ->data = this; 


由 于 Timerwrap 继承 自 Handlewrap ， 对 象 构 造 时 就 把 handle 的 私有 变量 


data 指向 了 this 指针 ， 也 就 是 Handlewrap 。 回 调 函 数 通过 强 转 获取 了 
Timerwrap 对 象 。 


令 人 感 兴趣 的 是 L96, 这 边 是 由 C++ 调用 jsland. 查看 该 处 的 修改 历史 ， 笔 者 发 现 : 


timers: dispatch ontimeout callback by array index 


Achieve a minor speed-up by looking up the timeout callback on the timer 


object by using an array index rather than a named property. 


Gives a performance boost of about 1% on the misc/timers benchmarks. 


之 前 的 实现 是 属性 查找 ， 而 通过 极致 的 优化 ， 属 性 查找 被 替换 成 数组 索引 ， 
benchmark 性 能 提升 了 1%。 而 整个 系统 性 能 的 提升 正 是 来 源 于 这 点 滴 的 积累 。 


timers.js 


有 了 桥接 层 ，js 便 有 了 开启 、 关 闭 一 个 定时 器 的 能 力 。 


为 了 不 影响 到 nodejs 中 的 event loop，timer 模 块 专门 提供 了 一 些 内 部 的 
api: timers. unrefActive 给 像 socket 这 样 的 对 象 使 用 。 


在 最 初 的 设计 中 ， 每 次 执行 _unrefActive 添 加 任务 时 都 会 维持 着 unrefList 的 顺序 ， 保 
证 超时 时 间 最 小 的 处 于 前 面 。 这 样 在 定时 器 超时 后 便 可 以 以 最 快 的 速度 处 理 超时 任 
务 并 设置 下 一 个 定时 器 ， 但 是 在 添加 任务 时 最 坏 的 情况 下 需要 遍历 unrefList 链 表 中 
的 所 有 节点 。 


517 exports._unrefActive = function(item) { 
518 var msecs = item._idleTimeout; 


519 if (!msecs || msecs < 0) return; 
520 assert(msecs »- 0); 

521 

522 L.remove(item); 

523 

524 if (!unrefList) { 

525 debug('unrefList initialized'); 
526 unrefList = {}; 

527 L.init(unrefList); 

528 

529 debug('unrefTimer initialized'); 
530 unrefTimer = new Timer(); 

bs unrefTimer.unref(); 

532 unrefTimer.when = -1; 

533 unrefTimer[kOnTimeout] = unrefTimeout; 
534  ) 

535 


536 var now - Timer.now(); 
537 item._idleStart = now; 


538 

539 if (L.isEmpty(unrefList)) { 

540 debug('unrefList empty'); 

541 L.append(unrefList, item); 

542 

543 unrefTimer.start(msecs, 9); 
544 unrefTimer.when = now + msecs; 
545 debug('unrefTimer scheduled'); 


546 retúrn; 


547  ) 

548 

549 var when = now + msecs; 

550 

551 debug('unrefList find where we can insert'); 
552 

553 var cur, them; 


554 

555 for (cur = unrefList._idlePrev; cur != unrefList; cur = cu 
r._idlePrev) { 

556 them = cur._idleStart + cur._idleTimeout; 

557 

558 if (when < them) { 

559 debug('unrefList inserting into middle of list'); 
560 

561 L.append(cur, item); 

562 

503 if (unrefTimer.when » when) ( 

564 debug('unrefTimer is scheduled to fire too late, res 
chedule'); 

565 unrefTimer.start(msecs, 9); 

566 unrefTimer.when - when; 

567 } 

568 

569 return; 

570 } 

5710 3 

572 


573 debug('unrefList append to end'); 
574 L.append(unrefList, item); 
575 }; 


L524-L534, 是 有 且 只 创建 一 个 unrefTimer ,来 处 理 超时 的 内 部 使 用 定时 器 ， 处 理 
完 一 个 则 顺序 处 理 下 一 个 。 


L553-L571, 当 需 要 插入 一 个 定时 器 时 ， 则 需要 保证 unrefList 有 序 ， 需 要 遍历 链 
表 找 到 插入 的 位 置 ， 最 差 的 情况 下 是 O(N) ° 


很 显然 ， 在 HTTP 中 建立 连接 是 最 频繁 的 操作 ， 那 么 向 unrefList 链表 中 添加 节 
点 也 就 非常 频繁 了 ， 而 且 最 开始 设置 的 定时 器 其 实 最 后 真正 会 超时 的 非常 少 ， 因 为 
中 间 涉 及 到 io 的 正常 操作 时 便 会 取消 定时 器 。 所 以 问题 就 变 成 最 耗 性 能 的 操作 非常 
频繁 ， 而 几乎 不 花 时 间 的 操作 却 很 少 被 执行 到 。 

针对 这 种 情况 ， 如 何 解 决 呢 ? 


显然 这 里 也 遵从 80/20 原 则 。 思 路 上 我 们 应 该 使 80% 的 情况 变 和 
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使 用 不 排序 的 链表 


主要 思路 就 是 将 对 unrefList 链 表 的 遍历 操作 ， 移 到 unrefTimeout 定 时 器 超时 处 理 
中 。 这 样 每 次 查找 出 已 经 超时 的 任务 就 需要 花 比较 多 的 时 间 了 O(n)， 但 是 插入 操作 
却 变 得 非常 简单 O(1)， 而 插入 节点 正 是 最 频繁 的 操作 。 


572 exports._unrefActive = function(item) { 
573  ....4* 

574 var now - Timer.now(); 

575 item. idleStart - now; 


577 var when = now + msecs; 
579 // If the actual timer is set to fire too late, or not set 


to fire at all, 
580 // we need to make it fire earlier 


581 if (unrefTimer.when === -1 || unrefTimer.when > when) { 
582 unrefTimer.start(msecs, 9); 

583 unrefTimer.when - when; 

584 debug('unrefTimer scheduled'); 

585 } 

586 


587 debug('unrefList append to end'); 
588 L.append(unrefList, item); 
589 T; 


可 以 看 到 上 588， 之 前 遍历 查找 在 新 的 实现 中 e5bb668， 简 单 的 变 成 抽象 List 
的 append 操作 。 


https://github.com/joyent/node/issues/8160 


使 用 二 又 堆 
二 又 堆 达 到 了 插入 和 查找 的 平衡 ， 和 目前 libuv 的 实现 一 致 。 有 兴趣 的 可 以 查看 : 


e https://github.com/misterdjules/node/commits/fix-issue-8160-with-heap, 基于 
v0.12. 


社区 改进 实现 


e 有 序 链表 的 实现 的 版 本 只 采用 了 一 个 unrefTimer 来 执行 任务 ， 在 内 存 上 是 
节省 了 ， 但 却 很 难 达 到 性 能 的 平衡 。 
e 二 又 堆 实 现在 正常 的 连接 场景 下 却 输 于 不 排序 链表 。 


社区 通过 演变 ， 实 现 采 用 的 是 哈 希 + 链表 的 结合 ， 以 空间 换 时 间 。 其 实 是 一 种 时 间 
轮 算法 的 演化 。 


三 一 二 > Object Map 
| 
= 
| refedLists: { '40': { }, '320': { etc } } (keys of millisecon 
d duration) 
此- 一 ml 
| 


i | 
| TimersList { _idleNext: { }, _idlePrev: (self), timer: (Time 


rwrap) } 
| a 


| ee ^ 
| | ( idleNext: { ),  idlePrev: { }, _onTimeout: (callb 


ack) ) 


| dg = = 
| d | à 


| | { _idleNext: { etc ), _idlePrev: { }, _onTimeout: 
(callback) } 

I- r- 

| | 


| L——- > Actual JavaScript timeouts 


L— > Linked List 


。 Ay oe 
Timer 解读 


我 们 先 看 下 数据 结构 的 组 织 : 


e refedLists 的 键 是 超时 时 间 ， 值 是 一 个 具有 相同 超时 时 间 的 链表 。 
e unrefedLists 也 是 同 理 。 


107 // Internal APIs that need timeouts should use ^ unrefActive 
() instead of 

108 // active() so that they do not unnecessarily keep the pro 
cess open. 

109 exports. unrefActive - function(item) ( 

110 insert(item, true); 

s us DN 

114 // The underlying logic for scheduling or re-scheduling a ti 
mer. 

115 7/7 

116 // Appends a timer onto the end of an existing timers list, 
Or creates a new 

117 // Timerwrap backed list if one does not already exist for t 
he specified timeout 

118 // duration. 

119 function insert(item, unrefed) ( 

120 const msecs - item. idleTimeout; 


221 if (msecs < © || msecs === undefined) return; 

1122 

123 item. idleStart = TimerWrap.now(); 

124 

125 const lists - unrefed --- true ? unrefedLists : refedLists 
/ 

126 


127 // Use an existing list if there is one, otherwise we need 
to make a new one. 

128 var list = lists[msecs]; 

129 if (!list) { 

130 debug('no %d list was found in insert, creating a new on 

e', msecs); 


131 // Make a new linked list of timers, and create a TimerW 
rap to schedule 

132 // processing for the list. 

133 list = new TimersList(msecs, unrefed); 

134 L.init(list); 
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135 list._timer._list = list; 


136 

137 if (unrefed === true) list._timer.unref(); 
138 list._timer.start(msecs, 0); 

139 

140 lists[msecs] = list; 

141 list. timer[kOnTimeout] = listOnTimeout; 
142 } 

143 


144 L.append(list, item); 
145 assert(!L.isEmpty(list)); // list is not empty 
146 } 


我 们 比较 下 上 述 实现 : 


e L128， 根 据 键 值 (超时 时 间 ) 拿 到 list ， 如 有 不 为 undefined, 则 简单 
的 append 到 最 后 面 就 好 了 ,复杂 度 O(1)。 

e L130-L141, 如 果 为 undefined, 则 创建 一 个 TimersList ,包含 一 个 C 的 定时 
器 ， 来 处 理 链表 中 的 任务 。 

e listOnTimeout 也 变 得 很 简单 ， 取 出 链表 的 任务 ， 复 杂 度 取决 于 链表 的 长 度 
O(m),m<Ne 


模块 使 用 一 个 链表 来 保存 所 有 超时 时 间 相 同 的 对 象 ， 每 个 对 象 中 都 会 存储 开始 时 间 
_idleStart 尺 及 超时 时 间 idleTimeout。 链 表 中 第 一 个 加 入 的 对 象 一 定 会 比 后 面 加 入 
的 对 象 先 超时 ， 当 第 一 个 对 象 超时 完成 处 理 后 ， 重 新 计算 下 一 个 对 象 是 否 已 经 到 时 
或 者 还 有 多 久 到 时 ， 之 前 创建 的 Timer 对 象 便 会 再 次 启动 并 设置 新 的 超时 时 间 ， 直 
到 当 链 表 上 所 有 的 对 象 都 已 经 完成 超时 处 理 ， 此 时 便 会 关闭 这 个 Timer 对 象 。 


通过 这 种 巧妙 的 设计 ， 使 得 一 个 Timer 对 象 得 到 了 最 大 的 复 用 ， 从 而 极 大 的 提升 了 
timer 模 块 的 性 能 。 


Timer 在 node 中 的 应 用 


e 动态 更 新 HTTP Date 字 段 的 缓存 


31 var dateCache; 
32 function utcDate() { 
23 if (!dateCache) { 


34 var d = new Date(); 

25 dateCache = d.toUTCString(); 

36 timers.enroll(utcDate, 1000 - d.getMilliseconds()); 
ST timers._unrefActive(utcDate); 

38  ) 

39 return dateCache; 

40 } 


41 utcDate. onTimeout = function() { 
42 dateCache - undefined; 
Ae pe 


228 // Date header 


229 if (this.sendDate === true && state.sentDateHeader === fal 
se) { 

230 state.messageHeader += 'Date: ' + utcDate() + CRLF; 

231 } 


L230， 每 次 构造 Date 字 段 值 都 会 去 获取 系统 时 间 ， 但 精度 要 求 不 高 ， 只 需要 秒 级 
就 够 了 ， 所 以 在 1S 的 连接 请 求 可 以 复 用 dateCache 的 值 ， 超 时 后 重 置 
A undefined . 


L34-L35, 下 次 获取 会 重启 生成 。 
L36-L37, 重 新 设置 超时 时 间 以 便 更 新 。 


e HTTP 连接 超时 控制 


303 if (self.timeout ) 


304 socket.setTimeout(self.timeout); 

305 socket.on('timeout', function() { 

306 var req = socket.parser && socket.parser.incoming; 
307 var reqTimeout = req && !req.complete && req.emit('timeo 
ut', socket); 

308 var res = socket._httpMessage; 

309 var resTimeout = res && res.emit('timeout', socket); 
310 var serverTimeout = self.emit('timeout', socket); 
sp 

312 if (!reqTimeout && !resTimeout && !serverTimeout) 
S15 socket.destroy(); 

314 }); 


默认 的 timeout A this.timeout = 2 * 60 * 1000; 也 就 是 120s。L313， 超 时 
M] 44 9t socket 。 


Node.js 的 timer 1228 uh A AK. 2 42 He TH AY AR o 


e 数据 结构 抽象 
o linkedlist.js 抽象 出 链表 的 基础 操作 。 
e 以 空间 换 时 间 
o 相同 超时 时 间 的 定时 器 分 组 ， 而 不 是 使 用 一 个 unrefTimer ， 复 杂 度 降 
到 O(1)。 
e HARA 
o 相同 超时 时 间 的 定时 器 共享 一 个 底层 的 C 的 timer » 
e 80/20 法 则 
o 优化 主要 路 径 的 性 能 。 


参考 文档 
[1].https://github.com/nodejs/node/wiki/Optimizing-_unrefActive 


[2].http://alinode.aliyun.com/blog/9 
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Yield 魔法 


ES6 中 的 Generator 的 引入 ， 极 大 程度 上 改变 了 JavaScript 程 序 员 对 和 迭代 器 的 看 法 ， 
并 为 解决 callback hell 提供 了 新 方法 。 


Generators 


迭代 器 模式 是 很 常用 的 设计 模式 ， 但 是 实现 起 来 ， 很 多 东西 是 程序 化 的 ; HARM 
则 比较 复杂 时 ， 维 护 迭 代 器 内 的 状态 ， 是 比较 麻烦 的 。 于 是 有 了 generator， 何 为 
generator ? 


Generators: a better way to build Iterators. 


借助 yield 关键 字 , 可 以 更 优雅 的 实现 fibonacci 数 列 。 


unetnon aa 


fi nn 1 
let a = 0, 


b= 
while(true) { 


yield a; 
[a, b] = [b, a + b]; 


yield 5 Jr 


yield 可 以 暂停 运行 流程 ， 那 么 便 为 改变 执行 流程 提供 了 可 能 。 这 和 Python 的 
coroutine 类 似 。 


Geneartor 之 所 以 可 用 来 控制 代码 流程 ， 就 是 通过 yield 来 将 两 个 或 者 多 个 Geneartor 
的 执行 路 径 互 相 切 换 。 这 种 切换 是 语句 级 别 的 ， 而 不 是 函数 调用 级 别 的 。 其 本 质 是 
CPS 变 换 。 


yield 之 后 ， 实 际 上 本 次 调用 就 结束 了 ， 控 制 权 实际 上 已 经 转 到 了 外 部 调用 了 
generator 的 next 方 法 的 函数 ， 调 用 的 过 程 中 伴随 着 状态 的 改变 。 那 么 如 果 外 部 函数 
不 继续 调用 next 方 法 ， 那 么 yield 所 在 函数 就 相当 于 停 在 yield 那 里 了 。 所 以 把 异步 的 


东西 做 完 ， 要 函数 继续 执行 ， 只 要 在 合适 的 地 方 再 次 调用 generator 的 next 就 行 ， 
就 好 像 函数 在 暂停 后 ， 继 续 执 行 。 


V8 实现 


parse phase 


Generator function 和 yield 关键 字 处 理 是 在 parser.cc ,我 们 看 到 AST 解析 


函数 : Parser::ParseEagerFunctionBody() 


3928 ZoneList<Statement*>* Parser: :ParseEagerFunctionBody( 


3929 const AstRawString* function_name, int pos, Variable* f 

var, 

3930 Token: :Value fvar init op, FunctionKind kind, bool* ok) 
{ 

39931 Dun 

3954 // For generators, allocate and yield an iterator on func 
tion entry. 

3955 if (IsGeneratorFunction(kind)) { 

3956 ZoneList<Expression*>* arguments = 

3957 new(zone()) ZoneList<Expression*>(0, zone()); 

3958 CallRuntime* allocation = factory()->NewCallRuntime( 

3959 ast_value_factory()->empty_string(), 

3960 Runtime: :FunctionForId(Runtime: :kCreateJSGeneratoro 
bject), arguments, 

3961 pos); 

3962 VariableProxy* init_proxy = factory()->NewVariableProxy 
( 

3963 function state -»generator object variable()); 

3964 Assignment* assignment = factory()->NewAssignment ( 

3965 Token::INIT VAR, init proxy, allocation, RelocInfo: 
: kNoPosition); 

3966 VariableProxy* get proxy = factory()->NewVariableProxy( 
3967 function state -»generator object variable()); 

3968 Yield* yield = factory()-»NewYield( 

3969 get proxy, assignment, Yield::kInitial, RelocInfo:: 
kNoPosition); 

3970 body ->Add(factory()->NewExpressionStatement ( 


3971 yield, RelocInfo::kNoPosition), zone()); 


2072988 


3973 

3974 ParseStatementList(body, Token::RBRACE, false, NULL, CHEC 
K OK); 

3975 

3976 if (IsGeneratorFunction(kind)) ( 

3977 VariableProxy* get proxy = factory()->NewVariableProxy( 
3978 function state -»generator object variable()); 

3979 Expression* undefined - 

3980 factory()-»NewUndefinedLiteral(RelocInfo::kNoPositi 
on); 

3981 Yield* yield = factory()-»NewYield(get proxy, undefined 
, Yield::kFinal, 

3982 RelocInfo::kNoPositi 
on); 

3983 body->Add(factory( )->NewExpressionStatement ( 

3984 yield, RelocInfo::kNoPosition), zone()); 

3985  ) 

3986 


L3955 #1] BT £ Generator functions ParseStatementList 解析 function x& 


数 体 。 ix Generator function 也 是 一 种 function, 在 V8 中 ， 同 样 用 
JSFunction 表示 。 


FES if BHA P > 4132 T Yield::kInitial 和 Yield::kFinal 两 个 Yield 


AST 节点 。 


Yield 状态 分 为 : 


enum Kind { 


kInitial, // The initial yield that returns the unboxed gen 


erator object. 

kSuspend, // A normal yield: { value: EXPRESSION, done: 
se } 

kDelegating, // A yield’. 


kFinal // A return: { value: EXPRESSION, done: true } 


}; 


codegen phase 


机 器 码 生 成 (X64 平 台 ) 主 要 集中 在 runtime-generator.cc , full-codegen- 


x64.cc 


o 


runtime-generator.cc 提供 了 Create , Suspend , Resume , Close 等 
stub 代码 段 ， 


给 full-codegen 内 联 使 用 ， 生 成 汇编 代码 。 


我 们 先 来 看 到 RUNTIME FUNCTION(Runtime CreateJSGeneratorObject) , 


14 RUNTIME_FUNCTION(Runtime_CreateJSGeneratorObject) { 


db HandleScope scope(isolate); 

16 DCHECK(args.length() == 0); 

17 

18 JavaScriptFrameIterator it(isolate); 

19 JavaScriptFrame* frame = it.frame(); 

20 Handle<JSFunction> function(frame->function()); 

21 RUNTIME_ASSERT(function->shared()->is_generator()); 

22 

23 Handle<JSGeneratorObject> generator; 

24 if (frame->IsConstructor()) { 

25 generator = handle(JSGeneratorObject: :cast(frame->receiv 
er())); 

26 ) else { 

27 generator = isolate->factory( )->NewJSGeneratorObject(fun 
ction); 

28 } 

29 generator ->set_function(*function); 

30 generator ->set_context(Context: :cast(frame->context())); 
od generator-»set receiver(frame-»receiver()); 

32 generator-»set continuation(9); 

33 . generator-»set operand stack(isolate--heap()-»empty fixed 
array()); 

34 generator-»set stack handler index(-1); 

95 

36 return *generator; 


Te 


函数 根据 当前 的 Frame, 创建 一 个 JSGeneratorobject 对 象 来 储存 
JSFunction , Context ，pc 指针 ， 设 置 操作 数 栈 为 空 。 


yield 后 ， 实 际 上 就 是 保存 当前 的 执行 环境 ，L74 保 存 当 前 的 操作 数 栈 ， 并 保存 到 
JSGeneratorObject*t # P ° 


40 RUNTIME FUNCTION(Runtime SuspendJSGeneratorObject) { 

41 HandleScope handle scope(isolate); 

42 DCHECK(args.length() == 1); 

43 CONVERT ARG HANDLE CHECKED(JSGeneratorObject, generator ob 
ject, 055 

44 

45 JavaScriptFramelterator stack iterator(isolate); 

46 JavaScriptFrame* frame - stack iterator.frame(); 

47 RUNTIME ASSERT(frame-»-function()-»shared()-»is generator() 


48 DCHECK_EQ(frame->function(), generator object-»function()) 


50 // The caller should have saved the context and continuati 
on already. 

51 DCHECK EQ(generator object-»context(), Context::cast(frame 
-»context())); 

52 DCHECK_LT(9, generator object-»continuation()); 

53 

54 // We expect there to be at least two values on the operan 
d stack: the return 

55 // value of the yield expression, and the argument to this 
runtime call. 

56 // Neither of those should be saved. 

57 int operands count = frame->ComputeOperandsCount(); 

58 DCHECK GE(operands count, 2); 


59 operands count -- 2; 

60 

61 if (operands count -- 9) ( 

62 // Although it's semantically harmless to call this func 
tion with an 

63 // operands count of zero, it is also unnecessary. 

64 DCHECK EQ(generator object-»operand stack(), 


65 isolate-»5heap()-»empty fixed array()); 


66 DCHECK_EQ(generator_object->stack_handler_index(), -1); 
67 // If there are no operands on the stack, there shouldn' 
t be a handler 


68 // active either. 

69 DCHECK( ! frame->HasHandler()); 

70 ) else { 

ri int stack handler index = -1; 

P2 Handle<FixedArray> operand stack = 

73 isolate-»factory()-»NewFixedArray(operands count); 
74 frame-»SaveOperandStack(*operand stack, &stack handler i 
ndex); 

75 generator_object->set_operand_stack(*operand_stack); 

76 generator_object->set_stack_handler_index(stack_handler_ 
index); 

TT } 

78 

79 return isolate->heap()->undefined_value(); 

80 } 


Resume 对 应 于 外 部 的 _ next ， 要 恢复 执行 ， 首 先 我 们 得 知道 需要 执行 的 pc 指针 
偏 移 ， 机 器 代码 存储 在 JSFunction 的 Code 对 象 中 ,L105 拿 到 pc 首 地 址 ， 
L106 从 JSGeneratorObject 对 象 取出 偏 移 offset 。 


L108 设置 当前 Frame 的 pc 偏 移 。L118 恢复 操作 数 栈 , L126-L130 根 据 恢复 的 
mode, 返回 value ° 


90 RUNTIME_FUNCTION(Runtime_ResumeJSGeneratorObject) { 

91  SealHandleScope shs(isolate); 

92 DCHECK(args.length() -- 3); 

93 CONVERT ARG CHECKED(JSGeneratorObject, generator object, 0 
); 

94 CONVERT ARG CHECKED(Object, value, 1); 

95 CONVERT SMI ARG CHECKED(resume mode int, 2); 

96 JavaScriptFramelterator stack iterator(isolate); 

97 JavaScriptFrame* frame - stack iterator.frame(); 

98 

99 DCHECK_EQ(frame->function(), generator object-»-function()) 


100 DCHECK( frame->function( )->is_compiled()); 


Os: 

102 STATIC ASSERT(JSGeneratorObject::kGeneratorExecuting « 9); 
103 STATIC ASSERT(JSGeneratorObject::kGeneratorClosed == 0); 
104 

105 Address pc = generator object-»function()-»code()-»instruc 
tion_start(); 


106 int offset = generator_object->continuation(); 

107 DCHECK(offset > 0); 

108 frame->set_pc(pc + offset); 

109 

113 generator_object->set_continuation(JSGeneratorObject: :kGen 
eratorExecuting); 

114 

115 FixedArray* operand_stack = generator_object->operand_stac 
k(); 

116 int operands count = operand stack-»length(); 

117 if (operands count !- 0) ( 


118 frame-»-RestoreOperandStack(operand stack, 

119 generator object-»stack handl 
er index()); 

120 generator object-»set operand stack(isolate--»heap()-»emp 
ty fixed array()); 

121 generator object-»set stack handler index(-1); 

3222075 

123 

124 JSGeneratorObject::ResumeMode resume mode = 

125 static_cast<JSGeneratorObject: :ResumeMode>(resume_mode 
Sm. 

126 switch (resume mode) { 

127 case JSGeneratorObject::NEXT: 

128 return value; 

129 case JSGeneratorObject: : THROW: 

130 return isolate-»Throw(value); 

131  ) 

1132 


gas} 


这 边 我 们 关注 下 args 参数 ，args[0] 是 JSGeneratorObject 对 
$- generator object ，args[1] 是 Object 对 象 value , 也 就 是 next 的 返回 
值 ，args[2] 是 表示 resume 模式 的 值 。 


对 应 的 我 们 看 到 FullCodeGenerator::EmitGeneratorResume() 中 的 这 几 行 代 
码 : 


2296  __ Push(rbx); 

2297 Push(result register()); 

2298 | Push(Smi::FromInt(resume mode)); 

2299 | | CallRuntime(Runtime::kResumeJSGeneratorObject, 3); 


L2297 result 寄存 器 中 取出 value, L2299 调 用 
RUNTIME_FUNCTION(Runtime_ResumeJSGeneratorObject) ° 


这 样 ， 从 yield value 到 g.next() 取出 value, 相信 大 家 有 了 一 个 大 概 的 认 知 了 。 


延伸 


我 们 看 到 node.js 依 托 v8 层面 实现 了 协 程 ， 有 兴趣 的 同学 可 以 关心 下 fibjs, 它 是 用 C 
库 实现 了 协 程 ， 遇 到 异步 调用 就 "yield" 放弃 CPU ， 交 由 协 程 调度 ， 也 解决 了 
callcack hell 的 问题 。 本质 思想 上 两 种 方案 没 本 质 区 别 : 

e Generator 是 利用 yield 特 殊 关 键 字 来 暂停 执行 ， 而 fibers 是 利用 Fiber.yield() 暂 停 


e Generator 是 利用 未 数 返 回 的 Generator 句 柄 来 控制 函数 的 继续 执行 ， 而 fibers 
是 在 异步 回调 中 利用 Fibercurrent.run() 继 续 执行 。 


参考 


e http://en.wikipedia.org/wiki/Continuation-passing_style 
e https://zh.wikipedia.org/zh-cn/ 7 #2 
e fibjs https://github.com/xicilion/fibjs 


Buffer 


在 Node.js 中 ，Buffer 类 是 随 Node 内 核 一 起 发 布 的 核心 库 。Buffer 库 为 Node.js 带 来 


了 一 


种 存储 原始 数据 的 方法 ， 可 以 让 Nodejs 处 理 二 进 制 数据 ， 每 当 需 要 在 Nodejs 中 


处 理 I/O 操 作 中 移动 的 数据 时 ， 就 有 可 能 使 用 Buffer 库 。 原 始 数据 存储 在 Buffer 类 的 
实例 中 。 一 个 Buffer 类 似 于 一 个 整数 数组 ， 但 它 对 应 于 V8 堆 内 存 之 外 的 一 块 原 始 
We 


Buffer 和 Javascript 字符 串 对 象 之 间 的 转换 需要 显 式 地 调用 编码 方法 来 完成 。 以 下 
是 几 种 不 同 的 字符 串 编码 : 


‘ascii’ — A T 7 2 ASCI 字符 。 这 种 编码 方法 非常 快 ， 并且 会 丢弃 高 位 数 

据 。 

'utf8' — 多 字 节 编码 的 Unicode 字符 。 许 多 网 页 和 其 他 文件 格式 使 用 UTF-8。 
'ucs2' 一 两 个 字 节 ， 以 小 尾 字 节 序 (little-endian) 编 码 的 Unicode 字符 。 它 只 能 
xt BMP (基本 多 文 种 平面 ，U+0000 一 Ut+FFFF) 范围 内 的 字符 编码 。 
'base64' — Base64 字符 串 编码 。 

‘binary’ — 一 种 将 原始 二 进 制 数据 转换 成 字符 串 的 编码 方式 ， 仅 使 用 每 个 字符 的 
前 8 位 。 这 种 编码 方法 已 经 过 时 ， 应 当 尽 可 能 地 使 用 Buffer 对 象 。 

'hex' - 每 个 字 节 都 采用 2 进 制 编码 。 


在 Buffer 中 创建 一 个 数组 ， 需 要 注意 以 下 规则 : 


Buffer 是 内 存 拷贝 ， 而 不 是 内 存 共享 。 


Buffer 占用 内 存 被 解释 为 一 个 数组 ， 而 不 是 字 节 数组 。 比 如 ，new 
Uint32Array(new Buffer([1,2,3,4])) 创建 了 4 个 Uint32Array， 它 的 成 员 为 
[1,2,3,4] ,而 不 是 [Ox1020304] 或 [0x4030201] 。 


slab 分 配 


在 lib/buffer.js 模块 中 ， 有 个 模块 私有 变量 pool ， 它 指向 当前 的 一 个 8K 的 slab : 


Buffer.poolSize = 8 * 1024; 
var pool; 


function allocPool() f 
pool - new SlowBuffer(Buffer.poolSize); 
pool.used = 0; 


SlowBuffer 为 src/node buffer.cc 导出 ， 当 用 户 调用 new Buffer 时 ， 如 果 你 要 申请 
的 空间 大 于 8K，node 会 直接 调用 SlowBuffer ， 如 果 小 于 8K ， 新 的 Buffer 会 建立 在 
当前 slab 之 上 : 


e 新 创建 的 Buffer 的 parent 成 员 变 量 会 指向 这 个 Slab ， 
e offset 变量 指向 在 这 个 slab 中 的 偏 移 : 


if (!pool || pool.length - pool.used < this.length) allocPoo 
1(); 

this.parent = pool; 

this.offset = pool.used; 

pool.used += this.length; 


PS: Æ lib/ tls legacy.js ? > SlabBuffer 创建 了 一 个 10MB 的 slab ° 


function alignPool() ( 
// Ensure aligned slices 
if (poolOffset & 0x7) { 
poolOffset |= 0x7; 
pooloffset++; 
j 


这 里 做 了 8 字 节 的 内 存 对 齐 处 理 。 


e 如 果 不 按照 平台 要 求 对 数据 存放 进行 对 齐 ， 会 带 来 存 取 效 率 上 的 损失 。 比 如 32 
位 的 Intel 处 理 器 通过 总 线 访 问 ( 包 括 读 和 写 ) 内 存 数据 。 每 个 总 线 周 期 从 偶 地 址 
开始 访问 32 位 内 存 数 据 ， 内 存 数 据 以 字 节 为 单位 存放 。 如 果 一 个 32 位 的 数据 没 
有 存放 在 4 字 节 整除 的 内 存 地 址 处 ， 那 么 处 理 器 就 需要 2 个 总 线 周期 对 其 进行 访 
问 ， 显 然 访问 效率 下 降 很 多 。 


e Node.js 是 一 个 跨 平 台 的 语言 ， 第 三 方 的 C++ addon 也 是 非常 多 ， 避 免 破 坏 了 
第 三 方 模块 的 使 用 ， 比 如 directlO 就 必须 要 内 存 对 齐 。 


e 兼容 node js v0.10 


详细 : https://github.com/nodejs/node/pull/2487 


浅 捞 贝 


Buffer 更 像 是 可 以 做 指针 操作 的 C 语 言 数 组 。 例 如 ， A a A ee 
位 置 的 字 节 。 需要 注意 的 是 : Buffer#slice 方法 ， 不 是 返回 一 个 新 的 Buffer， 而 是 
返回 对 原 Buffer 某 个 区 间 数 值 的 引用 。 


const bufi = Buffer.allocUnsafe(26); 


for (val d= 0 5 T€ 26 5 Ltty { 
buf1[i] = i + 97; // 97 is ASCII a 


const buf2 = buf1.slice(0, 3); 
buf2.toString('ascii', 0, buf2.length); 
// Returns: 'abc' 


buf1[0] = 
buf2.toString('ascii', 0, buf2.length); 
77 Revurns EDC 


上 面 是 官方 AP| 提供 的 例子 ， buf2 © bufi 前 3 个 字 节 的 引用 ， 对 buf2 的 
修改 就 相当 于 作用 在 bufi 上 。 


RG n 


如 果 想 要 拷贝 一 份 Buffer， 得 首先 创建 一 个 新 的 Buffer， 并 通过 .copy 方 法 把 原 Buffer 
中 的 数据 复制 过 去 


const bufi = Buffer.allocUnsafe(26); 
const buf2 = Buffer.allocUnsafe(26).fill('!'); 


for (let 1 = 0 7 1 5 26 5 att) f 
butt = 3 597: 77 97 3s ASCII a 


j 


bufi.copy(buf2, 8, 16, 20); 
console.log(buf2.toString('ascii', ©, 25)); 


{7 Prints: EDDIE grst o pco Dp 


通过 深 拷 贝 的 方式 ， buf2 截取 了 bufi 的 部 分 内 容 ， 之 后 对 buf2 的 修改 并 
不 会 作用 于 buf1 ,两 者 内 容 独 立 不 共享 。 


需要 注意 的 事 : 深 找 贝 是 一 种 消耗 CPU 和 内 存 的 操作 ， 请 知道 自己 在 做 什么 。 


内 存 碎片 


动态 分 配 将 不 可 避免 会 产生 内 存 雁 片 的 问题 ， 那 么 什么 是 内 存 碎 片 ? 内存 碎片 
即 “ 碎 片 的 内 存 ? 描 述 一 个 系统 中 所 有 不 可 用 的 空闲 内 存 ， 这 些 碎片 之 所 以 不 能 被 使 
用 ， 是 因为 负责 动态 分 配 内 存 的 分 配 算法 使 得 这 些 空闲 的 内 存 无 法 使 用 。 

Lita) slab 分 配 ， 存 在 明显 的 内 存 碎片 ， 即 8KB 的 内 存 并 没有 完全 被 使 用 ， 存 在 
一 定 的 浪费 。 通 用 的 slab 实 现 ， 会 浪费 约 1/2 的 空间 。 

当然 存在 更 高 效 ， 更 省 内 存 的 内 存 管 理 分 配 ， 比 如 tcmalloc, 但 也 必须 承受 一 定 的 
管理 代价 。node.js 在 这 方面 并 没有 一 味 的 执着 于 此 ， 而 是 达到 一 种 性 能 与 空间 使 
用 的 平衡 。 


zero fill 


Node.js 在 v5.10.0 加 入 了 命令 行 选项 --zero-fill-buffers ,强制 在 申请 
Buffer 时 用 0 填充 分 配 的 内 存 。 


为 什么 要 引入 这 个 特性 呢 ? 


e 防止 你 代码 中 本 该 初始 化 的 地 方 没有 初始 化 ; 
e 防止 其 他 代码 访问 到 你 之 前 写 入 Buffer 的 数据 ， 这 边 存在 安全 隐患 ， 如 下 


X node -p "new Buffer(1024).toString('ascii')" 
~7(@ P 
xn? k7x0x0' @#k 
:ArrayBuffer kh 
&7;?mQbFn? @ > n?O'h2R'Lq083-C[e 
;Ostrang k (R!~!H3k1 


代码 实现 上 则 是 通过 --zero-fill-buffers 区 分 申请 内 存 是 用 malloc() 或 者 
calloc() ° 

当然 性 能 上 calloc() 还 是 差 很 多 ， 所 以 社区 开放 了 一 个 选项 ， 而 不 是 默认 开 

È o 


e here are benchmark results for allocating a 1mb Buffer: 


XXX v5.4.0 v4.2.3 v0.12.9 v0.10.41 
41,515 43,670 53,969 147,350 
new Buffer ops/sec ops/sec ops/sec ops/sec 
+3.00% +1.86% +1.41% +1.82% 
PEN EG 5,041 4,293 7,953 8,167 
(zero-filled) ops/sec ops/sec ops/sec ops/sec 
+2.00% +1.79% +0.55% +2.38% 


具体 了 解 : https://github.com/nodejs/node/issues/4660 


总 2l 


Wy 一 口 


im 


Buffer 是 一 个 典型 的 Javascript 和 C++ 结合 的 模块 ， 性 能 相关 部 分 用 C++ 实现 ， 非 性 
能 相关 部 分 用 javascript 实 现 。 


Node 在 进程 启动 时 Buffer 就 已 经 加 装 进入 内 存 ， 并 将 其 放 入 全 局 对 象 ， 因 此 无 需 


require ° 


Buffer 内 存 分 配 ，Buffer 对 象 的 内 存 分 配 不 是 在 V8 的 堆 内 存 中 ， 在 Node 的 C++ 层面 
实现 内 存 的 申请 。 


e https://nodesource.com/blog/nsolid-deepdive-into-security-policies-zero-fill- 


Buffer 


buffer-allocations/ 
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Event 


Node.js uses an event-driven, non-blocking I/O model that makes it 
lightweight and efficient. 


这 是 Node.Js 官 网 对 自身 的 介绍 ,明确 强调 了 Node.Js 使 用 了 一 个 事件 驱动 、 非 阻塞 
AX WO 的 模型 ,使 其 轻 量 又 高 效 。 


而 且 在 Node 中 大 量 核心 模块 都 使 用 了 Event 的 机 制 ,因此 可 以 说 是 整个 Node 里 最 重 
要 的 模块 之 一 . 


涉及 源码 


e lib/events.js 














+observerCollection 
+registerObserver (observer) 


+unregisterObserver (observer) 
+notifyObservers() 






E 


[enotify() | 


+notify() 


notifyObservers() 
for observer in observerCollection 
call observer.notify() 








ConcreteObserverA 
[pone MS I|VV.]|Vk|J/]XjJiíz | 


+notify() 


ConcreteObserverB 


上 图 是 UML 的 类 图 ， 


观察 者 模式 是 这 样 一 种 设计 模式 。 一 个 被 称 作 被 观察 者 的 对 象 ， 维 护 一 组 被 称 为 观 
察 者 的 对 象 ， 这 些 对 象 依赖 于 被 观察 者 ， 被 观察 者 自动 将 自身 的 状态 的 任何 变化 通 


观察 者 的 时 候 ， 它 将 采用 广播 的 方式 ， 这 条 


使 用 观察 者 模式 更 深层 次 的 动机 是 ， 当 我 们 需要 维护 相关 对 象 的 一 致 性 的 时 候 ， 我 
们 可 以 避免 对 象 之 间 的 紧 蜜 耦合。 例如， 一 个 对 象 可 以 通知 另外 一 个 对 象 ， 而 不 需 
要 知道 这 个 对 象 的 信息 。 


Event.js 实现 


EventEmitter 允许 我 们 注册 一 个 或 多 个 函数 作为 listeners。 在 特定 的 事件 触发 时 被 
调用 。 如 下 图 : 











listeners 存储 


一 般 观 察 者 的 设计 模式 的 实现 逻辑 是 类 似 的 ， 都 是 有 一 个 类 似 map 的 结构 ， 存 储 监 
听 事 件 和 回调 函数 的 对 应 关系 。 


// This constructor is used to store event handlers. Instantiati 

ng this is 

// faster than explicitly calling 'Object.create(null)' to get a 
"clean" empty 

// object (tested with v8 v4.9). 

function EventHandlers() {} 

EventHandlers.prototype - Object.create(null); 

EventEmitter.init = function() { 


if (!this. events || this. events === Object.getPrototypeOf(th 
is). events) ( 
this. events - new EventHandlers(); 
this. eventsCount = 0; 


this. maxListeners - this. maxListeners || undefined; 


HH 


在 EventEmitter RP > 7A 4t / 4& 对 的 方式 来 存储 事件 名 和 对 应 的 监听 器 。 你 可 以 
会 好 奇 ， 为 什么 创建 一 个 最 简单 的 键 / 值 对 搞 的 这 么 复杂 ， 简 单 的 一 个 
this._events = {}; 不 就 好 咯 。 


是 的 ， 社 区 的 最 初 实现 是 这 样 的 ， 但 随 着 V8 的 升级 ， 对 auc Pc M 
它 的 实现 办 法 是 使 用 一 个 空 的 构造 函数 ， 并 且 把 这 个 构造 的 原型 事先 置 空 。 


通过 jsperf 比较 两 者 的 性 能 , 我 们 发 现 这 种 实现 况 是 简单 实现 性 能 的 2 售 | 


增加 事件 监听 


addListener: 增加 事件 监听 , on : addListener 的 别名 ， 实 际 上 是 一 样 的 。 


210 function _addListener(target, type, listener, prepend) { 
211 var m; 

212 var events; 

2189 var existing; 


214 
215 if (typeof listener !-- 'function') 
216 throw new TypeError('"listener" argument must be a funct 


zo) 


23 
218 events - target. events; 
219 if (!events) { 


220 events = target._events = new EventHandlers(); 

221 target._eventsCount = 0; 

222 } else { 

223 

234 } 

235 

236 if (!existing) { 

201 // Optimize the case of one listener. Don't need the ext 


ra array object. 


238 existing = events[type] = listener; 

239 ++target._eventsCount; 

240 } else { 

241 if (typeof existing === 'function') { 

242 // Adding the second element, need to change to array. 
243 existing = events[type] = prepend ? [listener, existin 
g] 

244 [existing, listene 
r]; 

245 } else { 

246 // If we've already got an array, just append. 

247 if (prepend) { 

248 existing.unshift(listener); 

249 ) else ( 

250 existing.push(listener); 

251 } 

252 } 

253 

254 // Check for listener leak 

255 

264 } 

265 

266 return target; 

267 } 


实际 使 用 复杂 场景 时 ， 会 出 现 对 回调 顺序 的 需求 。L250, 默 认 添 加 监听 是 在 事件 监 
听 数 组 的 末尾 。L247-L248， prepend 标记 是 否 在 事件 数组 的 前 部 添加 。 


深入 了 解 https://github.com/nodejs/node/pull/6032 


删除 事件 监听 


在 EventEmitter#removeListener 这 个 API 的 实现 里 ， 需 要 从 存储 的 监听 器 数组 中 
除去 一 个 元 素 ， 我 们 首先 想到 的 就 是 使 用 Array#splice 这 个 API > PP arr.splice(i, 
1) 。 不 过 这 个 API 所 提供 的 功能 过 于 多 了 ， 它 支持 去 除 自 定 义 数 量 的 元 素 ， 还 支持 
向 数组 中 添加 自 定 义 的 元 素 。 所 以 ， 源 码 中 选择 自己 实现 一 个 最 小 可 用 的 : 


function spliceOne(list, index) 1 
for (var i = index, k = i + 1, n = list.length; k < n; i += 1, 
k += 1) 
list[i] = list[k]; 
list.pop(); 


性 能 是 原生 调用 的 1.5 倍 。 
事件 触发 


在 事件 触发 时 ， 监 听 器 拥有 的 参数 数量 是 任意 的 。 


136 EventEmitter.prototype.emit = function emit(type) { 
137 var er, handler, len, args, i, events, domain; 
138 var needDomainExit = false; 


139 var doError = (type === 'error'); 
140 

141 events = this._events; 

142 

169 

170 handler = events[type]; 

T71 

172 if (!handler) 

T return false; 

174 : 

180 var isFn - typeof handler --- 'function'; 


181 len - arguments.length; 
182 switch (len) ( 
183 // fast cases 


184 (cases 


185 emitNone(handler, isFn, this); 

186 break; 

187 case 2: 

188 emitOne(handler, isFn, this, arguments[1]); 
189 break; 

190 case 3: 

191 emitTwo(handler, isFn, this, arguments[1], arguments[2 
1); 

192 break; 

193 case 4: 

194 emitThree(handler, isFn, this, arguments[1], arguments[ 
2], arguments[3]); 

195 break; 

196 // slower 

197 default: 

198 args = new Array(len - 1); 

199 for (i = 1; i < len; i++) 

200 args[i - 1] = arguments[i]; 

201 emitMany(handler, isFn, this, args); 

202 +} 

206 


207 return true; 
4 BY 


把 不 定 参 数 的 函数 调用 转变 成 固定 参数 的 函数 调用 ， 且 最 多 支持 到 三 个 参数 。 超 过 
3 个 参数 则 调用 emitMany . 结果 不 言 而 喻 ， 我 们 还 是 比较 下 会 差 多 少 ， 以 三 个 参 
数 为 例 : jsperf 显示 的 性 能 差距 在 1 倍 左右 。 


NS 


深入 了 解 https://github.com/iojs/io.js/pull/601 


event 在 node 中 的 应 用 


监控 文件 变化 ， 通 知 感 兴趣 的 观察 者 。 


1389 function FSWatcher() { 

1390 EventEmitter.call(this); 

1391 

1392 var self = this; 

1393 this. handle = new FSEvent(); 

1394 this. handle.owner - this; 

1395 

1396 this._handle.onchange = function(status, event, filename) 


{ 


1397 if (status < 0) { 

1398 self._handle.close(); 

1399 const error = !filename ? 

1400 errnoException(status, 'Error watching file for c 
hanges: ') 

1401 errnoException(status, 

1402 ‘Error watching file ${filename} f 
or changes: ); 

1403 error.filename - filename; 

1404 self.emit('error', error); 

1405 } else { 

1406 self .emit('change', event, filename); 

1407 } 

1408}; 

1409 } 


1410 util.inherits(FSWatcher, EventEmitter); 
Bil E xe [HE 


L1410, FSWatcher 对 象 继承 EventEmitter > 4# 8 & 74 T EventEmitter& X 7X ° 
L1404 ， 当 底层 发 生 错 误 时 ， 会 发 出 通知 事件 error 。L1406， 文 件 发 生变 化 
时 ，FSWatcher 对 象 发 射 change 事件 ， 具 体 的 变化 由 event 标 识 ，filename 标 识 
文件 名 。 


L1396, 挂 在 FSEvent 对 象 上 的 方法 onchange 作为 C++ 调用 Javascript 的 回 
调 ， 在 不 同 的 平台 实现 方式 也 不 一 样 ， 我 们 在 文件 系统 章节 将 详细 讲述 。 


上 述 是 fs 模块 监听 文件 变化 的 实现 ， 并 导出 API: fs.watch() 给 外 部 使 用 ， 另 外 
还 有 一 个 fs.watchFile() 。 我们 查看 官方 文档 : 


fs.watchFile(filename, [options], listener) 

Stability: 2 - Unstable. Use fs.watch instead, if available. 
Watch for changes on filename. 

fs.watch(filename, [options], [listener]) 

Stability: 2 - Unstable. Not available on all platforms. 


e fs.watch() 官方 建议 使 用 。 
e fs.watch() 并 不 是 全 平台 支持 ， 只 有 OSX 和 Windows 支持 recursive 选 项 。 
e fs.watch() 监听 文件 或 目录 ，fs.watchFile() 监听 文件 。 


fs.watch() 如 果 传 入 listener, 如 下 : 


fs.watch('somedir', function (event, filename) { 


console.log('event is: ' + event); 
if (filename) { 
console.log('filename provided: ' + filename); 
} 
}); 


则 默认 添加 函数 callback 到 change 事件 的 观察 者 中 。 当 然 也 可 以 换个 姿势 ， 
ta: 


var watcher = fs.watch('somedir'); 
watcher.on('change', function (event, filename) { 


console.log('event is: ' + event); 
if (filename) ( 

console.log('filename provided: ' + filename); 
} 


}).on('error', function(error) { 


}) 


可 以 实现 链 式 调用 , 比如 符合 目前 很 火 的 Reactive Programming ° RP 编程 范式 提高 
了 编码 的 抽象 程度 ， 你 可 以 更 好 地 关注 在 商业 逻辑 中 各 种 事件 的 联系 避免 大 量 细节 
而 琐碎 的 实现 ， 使 得 编码 更 加 简洁 。 


& 111 (Readline) 


我 们 来 看 看 逐 行 读 取 对 键盘 输入 的 处 理 ， 这 涉及 到 比较 复杂 的 状态 机 和 事件 发 送 ， 
是 学 习 事件 模块 非常 好 的 一 个 例子 。 


212 Interface.prototype._onLine = function(line) { 
213 if (this. questionCallback) { 


214 var cb - this. questionCallback; 
215 this. questionCallback - null; 
216 this.setPrompt(this. oldPrompt); 
21 cb(line); 

218 ) else { 

219 this.emit('line', line); 

220 } 

Doa 


果 没 有 预先 设 定 指定 的 query， 然 后 用 户 应 答 后 触发 指定 的 callback， 那 么 
Interface 对 象 会 触发 line 事件 。 在 input 流 接受 了 一 个 An 时 触发 ， 通 常 
在 用 户 斋 击 回 车 或 者 返回 时 接收 。 这 是 一 个 监听 用 户 输 入 的 利器 。 监听 line 事件 
的 示例 : 


var readline = require('readline'); 

var rl = readline.createInterface({ 
input: process.stdin, 
output: process.stdout 

3); 

rl.on('line', function (cmd) { 
console.log('You just typed: '+ cmd); 

3); 


该 模块 对 复合 功能 按键 ， 比 如 Ctrl c, Ctrl + z 也 做 了 相应 的 处 理 , ASH Ctrl + c 
的 代码 进行 分 析 : 


678 Interface.prototype. ttyWrite = function(s, key) { 
679 key = key || {}; 

680 

681 // Ignore escape key - Fixes #2876 


682 if (key.name == 'escape') return; 
683 

684 if (key.ctrl && key.shift) { 

685 /* Control and shift pressed */ 
686 switch (key.name) { 

687 case 'backspace': 

688 this. deleteLineLeft(); 

689 break; 

690 

691 case 'delete': 

692 this. deleteLineRight(); 
693 break; 

694 } 

695 

696 } else if (key.ctrl) { 

697 /* Control key pressed */ 

698 

699 switch (key.name) ( 

700 case 'c': 

701 if (this.listenerCount('SIGINT') > 0) { 
702 this.emit('SIGINT'); 

703 } else { 

704 // This readline instance is finished 
705 this.close(); 

706 } 

707 break; 

708 Au... 

709 } 


e L681-L682, 2% ESC 4i» 

e 1684, 首先 判断 是 否 是 Ctrl fe Shift 复 合 键 同 时 按 下 ， 如 果 是 则 L685-L694 优 先 
处 理 。 

e L696, 如 果 是 按 下 Ctrl 4£ > L699 继续 判断 ， 如 果 另 一 个 是 c ,默认 是 关闭 对 
象 。 


e L701, 如 果 外 部 有 观察 者 , 则 发 送 SIGINT 事件 ， 交 由 观察 者 处 理 。 


REPL 


一 个 Read-Eval-Print-Loop (REPL， 读 取 - 执 行 -输出 循环 ) 既 可 用 于 独立 程序 也 可 
很 容易 地 被 集成 到 其 它 程序 中 。REPL 提供 了 一 种 交互 地 执行 JavaScript 并 查看 输 
出 的 方式 。 它 可 以 被 用 作 调 试 、 测 试 或 仅仅 尝试 某 些 东西 。 


在 命令 行 中 不 带 任何 参数 执行 node 您 便 会 进入 REPL 。 它 提供 了 一 个 简单 的 
Emacs 行 编辑 。 


REPLServer 继承 Interface， 如 代码 所 示 : inherits(REPLServer， 
rl.Interface); 


并 监听 line 事件 , 自 定义 关键 字 ， 以 支持 交互 式 的 命令 。 


$ NODE_DEBUG=REPL node 

REPL 37391: line ".help" 

break Sometimes you get stuck, this gets you out 

clear Alias for .break 

exit Exit the repl 

help Show repl options 

load Load JS from a file into the REPL session 

save Save all evaluated commands in this REPL session to a file 


我 们 看 下 代码 实现 : 


399 self.on('line', function(cmd) { 


400 debug('line %j', cmd); 

401 SawSIGINT - false; 

402 

403 // leading whitespaces in template literals should not 


be trimmed. 


404 if (self. inTemplateLiteral) { 

405 self. inTemplateLiteral = false; 

406 ) else { 

407 cmd = self.lineParser.parseLine(cmd); 

408 } 

409 

410 // Check to see if a REPL keyword was used. If it retur 
ns true, 

411 // display next prompt and return. 

412 if (cmd && cmd.charAt(0) === '.' && isNaN(parseFloat(cm 
d))) { 

413 var matches = cmd.match(/4\.([4\s]+)\s*(.*)$/); 

414 var keyword = matches && matches[1i]; 

415 var rest = matches && matches[2]; 

416 if (self.parseREPLKeyword(keyword, rest) === true) { 
417 return; 

418 } else if (!self.bufferedCommand) { 

419 self .outputStream.write('Invalid REPL keyword\n'); 
420 finish(null); 

421 return; 

422 } 

423 } 

424 

425 } 


e L400 ， 通 过 设置 环境 变量 NODE_DEBUG=REPL 打 开 调 试 功能 。 
L407 ， 解 析 cmd 输入 ， 处 理 正则 的 情况 。 
L412, 查看 是 否 以 . 开头 ， 并 且 不 是 浮 点 数 ， 则 利用 正则 匹配 字符 串 ， 
o 以 .help 为 例 ， 得 到 的 matches A [ '.help', 'help', '', index: 
0, input: '.help' ] * keyword 为 help, rest 为 ". 
e L416, 通过 keyword 从 commands 对 象 找 到 对 应 的 方法 执行 。 


REPL & 4| 


一 个 在 curl(1) 上 运行 的 REPL 实 例 的 例子 可 以 查看 这 里 : 
https://gist.github.com/2053342 


EventEmitter vs Callbacks 


e EventEmitter 
o 可 以 通知 多 个 listeners 
o 一 般 被 调用 多 次 。 
e Callback 
o 最 多 通知 一 个 listener 
o 通常 被 调用 一 次 ， 无 论 操 作 是 成 功 还 是 失败 。 


Event 模块 是 观察 者 设计 模式 的 典型 应 用 。 同 时 也 是 Reactive Programming “9 75 fä 
所 在 。 


参考 


[1].https://segmentfault.com/a/1190000005051034 


Fe if 2 ££. 5 domain 
异步 异常 捕获 


由 于 node 的 回调 异步 特性 ， 无 法 通过 try catch d Al JE PT AHR : 


try 二 
process.nextTick(function () { 


foo.bar(); 


}); 
} catch (err) { 
//can not catch it 


如 果 try catch 能 够 捕获 所 有 的 异常 ， 这 样 我 们 可 以 在 代码 出 现 一 些 非 预期 的 错误 
时 ， 能 够 记录 下 错误 的 同时 ， 友 好 的 给 调用 者 返回 一 个 500 错 误 。 可 惜 ，try catch 
无 法 捕获 异步 中 的 异常 。 所 以 我 们 能 做 的 只 能 是 


app.get('/index', function (req, res) { 
// 业务 逻辑 
3); 


process.on('uncaughtException', function (err) { 
logger.error(err); 


3); 


BE See TXUCRIESU RISO eee HER ede 
们 是 没有 办 法 对 发 现 错误 的 请 求 友 好 返回 的 ， 因 为 异常 处 理 只 返回 给 我 们 一 个 冷 冰 
冰 的 error ,脱离 了 上 下 文 ， 我 们 只 能 够 让 它 超时 返回 


domain 


在 node v0.8+ 版 本 的 时 候 ， 发 布 了 一 个 模块 domain。 这 个 模块 做 的 就 是 try catch PT 
无 法 做 到 的 : 捕捉 蜡 步 回调 中 出 现 的 异常 。 于 是 笠 ， 我 们 上 面 那 个 无 奈 的 例子 好 像 
有 了 解决 的 方案 : 


var domain = require('domain'); 


//5| X—^*domainfj F H4 » 14 — Ail RAB 6L 3E 4€ — 4-8 3 8 domain 
//domain 来 处 理 异 常 
app.use(function (req,res, next) { 
var d = domain.create(); 
/ / 9t domains) 4 1% 3 fF 
d.on('error', function (err) f 
logger.error(err); 
res.statusCode - 500; 
res.json({sucess:false, messag: ' 服 务 器 异常 "了 )， 
d.dispose(); 


3); 
d.add(req); 
d.add(res); 


d.run(next); 


3); 


domain 虽然 捕捉 到 了 异常 ， 但 是 还 是 由 于 异常 而 导致 的 堆栈 丢失 会 导致 内 存 泄 
漏 ， 所 以 出 现 这 种 情况 的 时 候 还 是 需要 重启 这 个 进程 的 。 


Domain =! #7 


Domain 自身 其 实 也 是 Event 模块 一 个 典型 的 应 用 ， 它 通过 事件 的 方式 来 传递 捕获 
的 错误 。 


inherits(Domain, EventEmitter); 


function Domain() { 
EventEmitter.call(this); 


this.members = []; 


HH? domain 为 了 支持 深层 次 的 诅 套 ， 提 供 了 Domain#enter 和 
Domain#exit 的 APl。 先 来 看 enter 的 实现 ， 


Domain.prototype.enter = function() { 
if (this._disposed) return; 


// note that this might be a no-op, but we still need 
// to push it onto the stack so that we can pop it later. 
exports.active = process.domain = this; 
stack.push(this); 
_domain_flag[9] = stack.length; 
H 


设置 当前 活跃 的 domain ,并 且 为 了 便于 回溯 ， 将 当前 的 domain 加 入 到 队列 的 
后 面 ， 更 新 栈 的 深度 。 


再 看 exit 实现 ， 


Domain.prototype.exit = function() { 

// skip disposed domains, as usual, but also don't do anything 
GRENS 

// domain is not on the stack. 

var index = stack.lastIndexOf(this); 

if (this._disposed || index === -1) return; 


// exit all domains until this one. 
stack.splice(index); 
. domain flag[9] = stack.length; 


exports.active - stack[stack.length - 1]; 
process.domain - exports.active; 


H 


相反 的 ， 退 出 当前 的 domain , 更 新 长 度 ， 设 置 当 前 活跃 的 domain ° 


angen ne SM NM enter , exit ,而 只 是 简单 的 创建 了 一 个 
domain, 怎么 会 达到 这 种 效果 ? 


读者 可 以 看 看 Asyncwrap::MakeCallback() ,每 次 C++ --> JS, 都 会 检查 
domain, 如 果 使 用 ， 则 会 显 式 地 调用 他 们 。 其 他 地 方 读者 可 以 自行 寻找 。 


为 了 解决 不 在 当前 作用 域 的 异常 处 理 ，Domain 也 提供 Domain#add 和 


Domain#remove 来 增加 emitter 或 者 Timer 。 


回 到 事件 的 根本 ， 什 么 时 候 触 发 domain 的 error 事 件 ? 


process. fatalException = function(er) { 
var caught; 


if (process.domain && process.domain. errorHandler) 
caught - process.domain. errorHandler(er) || caught; 


if (!caught) 
caught - process.emit('uncaughtException', er); 


// If someone handled it, then great. otherwise, die in C 
++ land 
// since that means that we'll exit the process, emit the 
'exit' event 
if (!caught) ( 
try 1 
if (!process. exiting) ( 
process. exiting - true; 
process.emit('exit', 1); 
} 
} catch (er) { 
// nothing to be done about it at this point. 


} 
// if we handled an error, then make sure any ticks get pr 
ocessed 
} else { 
NativeModule.require('timers').setImmediate(process._tic 
kCallback); 
j 


return caught; 


}; 


4o JR 4 AT process 使 用 了 domain, 也 是 就 process.domain FA È > RAM 
_errorHandler 来 处 理 ， 当 前 也 存在 没有 处 理 的 情况 ， 职 责 链 来 到 process ° 
process 则 触发 uncaughtException 事件 。 


Ad 


x 


^ 


0 


结 


G 


domain 很 强大 ， 但 它 只 能 捕获 在 其 作用 域 范围 内 的 异常 。 对 于 非 预 期 的 异常 产生 的 
时 候 ， 我 们 最 好 让 当前 请 求 超时 ， 然 后 让 这 个 进程 停止 服务 ， 之 后 重新 启动 。 


但 始终 Domain 在 异常 处 理 上 有 各 种 不 完美 ， 目 前 该 模块 处 于 即将 废除 阶段 ， 取 代 
他 的 可 能 是 另 一 种 机 制 。 


详细 讨论 见 : 


https://github.com/nodejs/node/issues/66 


参考 


e http://node.alibaba-inc.com/post/async-error-handle-and-domain.html? 
spm=0.0.0.0.7r8vQ2 


Stream ji 


从 早先 的 unix 开始 ，stream 便 开始 进入 了 人 们 的 视野 ， 在 过 去 的 几 十 年 的 时 间 里 ， 

auc nes s , M dau ME 系统 拆 成 一 些 很 小 的 部 
> 并 且 让 这 些 部 分 之 间 完 美 地 进行 合作 。 在 unix 中 ， 我 们 可 以 使 用 | 符号 来 实 

现 流 。 在 node 中 ，node 内 置 es 已 经 被 多 个 核心 模块 使 用 ， oe 

被 用 户 自 定义 的 模块 使 用 。 和 unix 类 似 ，node 中 的 流 模 块 的 基本 操作 符 叫 

做 .pipe() ， 同 时 你 也 可 以 使 用 一 个 后 压 机 制 来 应 对 那些 对 数据 消耗 较 慢 的 对 

象 。 


为 什么 应 该 使 用 流 


在 node 中 ，1/O 都 是 异步 的 ， 所 以 在 和 硬盘 以 及 网 络 的 交互 过 程 中 会 涉及 到 传递 回 
调 函 数 的 过 程 。 你 之 前 可 能 会 写 出 这 样 的 代码 : 


var http = require('http'); 
var fs = require('fs'); 


var server = http.createServer(function (req, res) { 
fs.readFile(__dirname + 'data.txt', function (err, data) 


res.end(data); 


3): 
3): 


server.listen(8000); 

本 | 
了 文 段 代码 并 没有 什么 问题 ， 但 是 在 每 次 请 求 时 ， 我 们 都 会 把 整 

个 data.txt 文件 读 入 到 内 存 中 ， 然 后 再 把 结果 返回 给 客户 端 。 想 想 看 ， 如 
data.txt 文件 非常 大 ， 在 响应 大 量 用 户 的 并 发 请 求 时 ， 程 序 可 能 会 消耗 大 量 的 
内 存 ， 这 样 很 可 能 会 造成 用 户 连接 缓慢 的 问题 。 

其 次 ， aa 会 造成 很 不 好 的 用 户 体 验 ， 因 为 用 户 在 接收 到 任何 的 内 容 之 
前 首先 需要 等 竺 程序 将 文件 内 容 完全 读 入 到 内 存 中 。 


所 幸 的 是 ， (req, res) 参数 都 是 流 对 象 ， 这 意味 着 我 们 可 以 使 用 一 种 更 好 的 方法 
来 实现 上 面 的 需求 : 


var http = require('http'); 
var fs = require('fs'); 


var server = http.createServer(function (req, res) { 
var stream = fs.createReadStream(  dirname + '/data.txt' 


stream.pipe(res); 


3); 


server.listen(8000); 


在 这 里 ， .pipe() 方法 会 自动 帮助 我 们 监听 data 和 end 事件 。 上 面 的 这 段 代 
aoa. i$ > mH data.txt 文件 中 每 一 小 段 数据 都 将 源源 不 断 的 发 送 到 客户 端 。 


除 此 之 外 ， 使 用 .pipe() 方法 还 有 别 的 好 处 ， 比 如 说 它 可 以 自动 控制 后 端 压 力 ， 
以 便 在 客户 端 连接 缓慢 的 时 候 hode 可 以 将 尽 可 能 少 的 缓存 放 到 内 存 中 。 


想 要 将 数据 进行 压缩 ? 我 们 可 以 使 用 相应 的 流 模 块 完成 这 项 工作 ! 


var http = require('http'); 
Var fs = pequirec rs”); 
var oppressor = require('oppressor'); 


var server = http.createServer(function (req, res) { 
var stream = fs.createReadStream(  dirname + '/data.txt' 


stream.pipe(oppressor(req)).pipe(res); 


3); 


server.listen(8000); 


通过 上 面 的 代码 ， 我 们 成 功 的 将 发 送 到 浏览 器 端的 数据 进行 了 gzip 压 缩 。 我 们 只 是 
使 用 了 一 个 oppressor 模 块 来 处 理 这 件 事 情 。 

一 旦 你 学 会 使 用 流 apij， 你 可 以 将 这 些 流 模块 像 搭 乐 高 积木 或 者 像 连接 水 管 一 样 拼凑 
起 来 ， 从 此 以 后 你 可 能 再 也 不 会 去 使 用 那些 没有 流 API 的 模块 获取 和 推送 数据 了 o 


流 模 块 基础 


nodejs 底层 一 共 提 供 了 4 个 流 ，Readable 流 、Writable 流 、Duplex 流 和 


Transform 流 。 


使 用 情景 类 需要 重 写 的 方法 
AGE Readable read 
AS Writable write 
KL Duplex read, _write 
操作 被 写 入 数据 ， 然 后 读 出 结果 Transform _transform，flush 


pipe 
无 论 哪 一 种 流 ， 都 会 使 用 ,pipe() 方法 来 实现 输入 和 输出 。 


.pipe() 吕 数 很 简单 ， 它 仅仅 是 接受 一 个 源头 src 并 将 数据 输出 到 一 个 可 写 的 
流 dst 中 : 


src.pipe(dst) 
.pipe(dst) 将 会 返回 dst 因此 你 可 以 链 式 调用 多 个 流 : 


a.pipe(b).pipe(c).pipe(d) 


上 面 的 代码 也 可 以 等 价 为 : 
a.pipe(b); 
b.pipe(c); 
c.pipe(d); 


这 和 你 在 unix 中 编写 流 代 码 很 类 似 : 


ace scs 


只 不 过 此 时 你 是 在 node 中 编写 而 不 是 在 shell 中 ! 


readable 7 
Readable 流 可 以 产 出 数据 ， 你 可 以 将 这 些 数据 传送 到 一 个 writable，transform 或 者 


duplex 流 中 ， 只 需要 调用 pipe() 方法 : 


readableStream. pipe(dst) 


&| 32 — ^- readable À 


现在 我 们 就 来 创建 一 个 readable 流 ! 
var Readable = require('stream').Readable; 


var rs = new Readable; 
rs.push('beep '); 
rs.push('boop\n'); 
rs.push(null); 


rs.pipe(process.stdout); 
下 面 运行 代码 : 


$ node read0.js 
beep boop 


在 上 面 的 代码 中 rs.push(null) 的 作用 是 告诉 rs 输出 数据 应 该 结束 了 。 


需要 注意 的 一 点 是 我 们 在 将 数据 输出 到 process.stdout 之 前 已 经 将 内 容 推 送 进 
readable 流 rs 中 ， 但 是 所 有 的 数据 依然 是 可 写 的 。 


这 是 因为 在 你 使 用 .push() 将 数据 推进 一 个 readable 流 中 时 ， 一 直 要 到 另 一 个 东 
西 来 消耗 数据 之 前 ， 数 据 都 会 存在 一 个 缓存 中 。 


然而 ， 在 更 多 的 情况 下 ， 我 们 想 要 的 是 当 需 要 数据 时 数据 才 会 产生 ， 以 此 来 名 免 大 
量 的 绥 存 数据 。 


我 们 可 以 通过 定义 一 个 . read 函数 来 实现 按 需 推送 数据 ; 


var Readable = require('stream').Readable; 
var rs = Readable(); 


var c = 97; 
rs. read = function () { 
rs.push(String.fromCharCode(c++)); 
if (c > 'z'.charCodeAt(0)) rs.push(null); 
3 


rs.pipe(process.stdout); 


代码 的 运行 结果 如 下 所 示 : 


$ node read1. js 
abcdefghijklmnopqrstuvwxyz 


在 这 里 我 们 将 字母 a 到 z 推进 了 rs 中 ， 但 是 只 有 当 数 据 消耗 者 出 现时 ， 数 据 才 会 
IE Sc PLALI © 


read Hiu TARRA size 参数 来 指明 消耗 者 想 要 读 取 多 少 比特 的 数据 ， 
但 是 这 个 参数 是 可 选 的 。 


需要 注意 到 的 是 你 可 以 使 用 util.inherit() 来 继承 一 个 Readable 流 。 


为 了 说 明 只 有 在 数据 消耗 者 出 现时 ， read 函数 才 会 被 调用 ， 我 们 可 以 将 上 面 的 
代码 简单 的 修改 一 下 : 


var Readable = require('stream').Readable; 
var rs = Readable(); 


var c = 97 - 1; 


rs._read = function () { 
if (c >= 'z'.charCodeAt(0)) return rs.push(null); 


setTimeout(function () (1 
rs.push(String.fromCharCode(++c) ); 
}, 100); 
}; 


rs.pipe(process.stdout); 


process.on('exit', function () 1 
console.error('\n_read() called ' + (c - 97) + ' times'); 


3) 


process.stdout.on('error', process.exit); 


运行 上 面 的 代码 我 们 可 以 发 现 如 果 我 们 只 请 求 5 比 特 的 数据 ， 那 么 read 只 会 运行 


5 次 : 


$ node read2.js | head -c5 
abcde 
_read() called 5 times 


在 上 面 的 代码 中 ， setTimeout 很 重要 ， 因 为 操作 系统 需要 花费 一 些 时 间 来 发 送 
程序 结束 信号 。 

3l, process.stdout.on('error',fn) 处 理 器 也 很 重要 ， 因 为 当 head 不 再 关 
心 我 们 的 程序 输出 时 ， 操 作 系统 将 会 向 我 们 的 进程 发 送 一 个 SIGPIPE 人 和 信号， 此 
时 process.stdout 将 会 捕获 到 一 个 EPIPE 错误 。 


上 面 这 些 复 杂 的 部 分 在 和 操作 系统 相关 的 交互 中 是 必要 的 ， 但 是 如 果 你 直接 和 node 
中 的 流 交互 的 话 , 则 可 有 可 无 5 


如 果 你 创建 了 一 个 readable 流 ， 并 且 想 要 将 任何 的 值 推送 到 其 中 的 话 ， 确 保 你 在 创 
建 流 的 时 候 指 定 了 objectMode 参 数 ，Readable({ objectMode: true }) ° 


消耗 一 个 readable 流 


大 部 分 时 候 ， 将 一 个 readable 流 直接 pipe 到 另 一 种 类 型 的 流 或 者 使 用 through 或 者 
concat-stream 创 建 的 流 中 ， 是 一 件 很 容易 的 事情 。 但 是 有 时 我 们 也 会 需要 直接 来 消 
耗 一 个 readable 流 。 


process.stdin.on('readable', function () { 
var buf = process.stdin.read(); 
console.dir(buf); 


3): 


代码 运行 结果 如 下 所 示 : 


$ (echo abc; sleep 1; echo def; sleep 1; echo ghi) | node consum 
e0.js 

<Buffer 61 62 63 Oa> 

«Buffer 64 65 66 0a» 

«Buffer 67 68 69 0a» 

null 


当 数 据 可 用 时 ， readable 事件 将 会 被 触发 ， 此 时 你 可 以 调用 .read() 方法 来 从 
缓存 中 获取 这 些 数据 。 


当 流 结束 时 ， ,read() 将 返回 null ， 因 为 此 时 已 经 没有 更 多 的 字 节 可 以 供 我 们 
获取 了 。 

你 也 可 以 告诉 .read() 方法 来 返回 n 个 字 节 的 数据 。 虽 然 所 有 核心 对 象 中 的 流 
都 支持 这 文 种 方式 ， ， 但 是 对 于 对 象 流 来 说 这 文 种 方法 并 不 可 用 


下 面 是 一 个 例子 ， 在 这 里 我 们 制定 每 次 读 取 3 个 字 节 的 数据 : 


process.stdin.on('readable', function () { 
var buf = process.stdin.read(3); 
console.dir(buf); 


3): 


运行 上 面 的 例子 ， 我 们 将 获取 到 不 完整 的 数据 : 


$ (echo abc; sleep 1; echo def; sleep 1; echo ghi) | node consum 


e1.js 

«Buffer 
«Buffer 
«Buffer 


61 62 63» 
0a 64 65» 
66 0a 67» 


余 的 数据 都 留 在 了 内 部 的 缓存 中 ， 因 此 这 个 时 候 我 们 需要 告诉 node 我 们 


还 对 剩 下 的 数据 感 兴 趣 ， 我 们 可 以 使 用 ,read(9) 来 完成 这 件 事 : 


process. 


var 


stdin.on('readable', function () { 
buf = process.stdin.read(3); 


console.dir (buf); 
process.stdin.read(0); 


3): 


到 现在 为 止 我 们 的 代码 和 我 们 所 期 望 的 一 样 了 ! 


$ (echo 
e2.js 

<Buffer 
<Buffer 
<Buffer 
<Buffer 


abc; sleep 1; echo def; sleep 1; echo ghi) | node consum 


61 62 63> 
0a 64 65> 
66 0a 67» 
68 69 0a» 


我 们 也 可 以 使 用 .unshift() 方法 来 放置 多 余 的 数据 。 


使 用 unshift() 方法 能 够 放置 我 们 进行 不 必要 的 缓存 拷贝 。 在 下 面 的 代码 中 我 们 
将 创建 一 个 分 割 新 行 的 可 读 解 析 器 : 


var offset = 0; 


process.stdin.on('readable', function () { 
var buf = process.stdin.read(); 
if (!buf) return; 
for (; offset < buf.length; offset++) { 
if (buf[offset] === 0x0a) { 
console.dir(buf.slice(0, offset).toString()); 
buf = buf.slice(offset + 1); 


offset - 0; 
process.stdin.unshift(buf); 
return; 


j 
process.stdin.unshift(buf); 
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代码 的 运行 结果 如 下 所 示 : 


$ tail -n +50000 /usr/share/dict/american-english | head -n10 | 
node lines.js 


'hearties' 
'heartiest' 
'heartily' 
'heartiness' 
'heartiness'*'s' 
'heartland' 
"heartland\'s' 
'heartlands' 
'heartless' 
'heartlessly' 


当然 ， 已 经 有 很 多 这 样 的 模块 比如 split 来 帮助 你 完成 这 件 事情 ， 你 完全 不 需要 自己 
写 一 个 。 


writable È 


px “writable 748 的 是 只 能 流 进 不 能 流 出 的 A: 


src.pipe(writableStream) 


&| 32 — writable À 


只 需要 定义 一 个 . write(chunk,enc,next) 有 函数， 你 就 可 以 将 一 个 readable 流 的 
数据 释放 到 其 中 : 


var Writable = require('stream').Writable; 
var ws = Writable(); 
ws._write = function (chunk, enc, next) { 
console.dir(chunk); 
next(); 


yo 


process.stdin.pipe(ws); 


代码 运行 结果 如 下 所 示 : 


$ (echo beep; sleep 1; echo boop) | node write0.js 
«Buffer 62 65 65 70 0a» 
«Buffer 62 6f 6f 70 0a» 


第 一 个 参数 ， chunk 代表 写 进 来 的 数据 。 


第 二 个 参数 enc 代表 编码 的 字符 串 ， 但 是 只 有 
在 opts.decodestring 为 false 的 时 候 你 才 可 以 写 一 个 字符 串 。 


第 三 个 参数 ， next(err) 是 一 个 回调 函数 ， 使 用 这 个 回调 函数 你 可 以 告诉 数据 消 
耗 者 可 以 写 更 多 的 数据 。 你 可 以 有 选择 性 的 传递 一 个 错误 对 象 error ， 这 时 会 在 
流 实 体 上 触发 一 个 emit 事件 。 


在 从 一 个 readable 流 向 一 个 writable 流 传 数据 的 过 程 中 ， 数 据 会 自动 被 转换 
为 Buffer 对 象 ， 除 非 你 在 创建 writable 流 的 时 候 制 定 了 decodeStrings 参数 
A false , Writable({decodeStrings: false}) ° 


如 果 你 需要 传递 对 象 ， 需 要 指定 objectMode 参数 为 true > Writable({ 
objectMode: true }) ° 


向 一 个 Writable 流 中 写 东 西 


如 果 你 需要 向 一 个 writable 流 中 写 东 西 ， 只 需要 调用 ,write(data) 即 可 。 


process.stdout.write('beep boop\n'); 


为 了 告诉 一 个 Writable 流 你 已 经 写 完 毕 了 ， 只 需要 调用 .end() 方法 。 你 也 可 以 使 
用 .end(data) 在 结束 前 再 写 一 些 数据 。 


var fs = require('fs'); 
var ws = fs.createWriteStream('message.txt'); 


ws.write('beep '); 
setTimeout(function () { 


ws.end('boop\n'); 
}, 1000); 


运行 结果 如 下 所 示 : 


$ node writing1.js 
$ cat message.txt 
beep boop 


如 果 你 在 创建 writable 流 时 指定 了 highwaterMark 参数 ， 那 么 当 没 有 更 多 数据 写 
入 时 ， 调 用 ,write() 方法 将 会 返回 false。 


如 果 你 想 要 等 待 缓存 情况 ， 可 以 监听 drain 事件 。 


duplex 流 


Duplex 流 是 一 个 可 读 也 可 写 的 流 ， 全 双 工 。 如 图 : 
DUPLEX 


Inbound 





: Read() 


Outbound 
代码 实现 上 : 


const Readable = require(' stream readable'); 
const Writable = require(' stream writable'); 


util.inherits(Duplex, Readable); 


var keys = Object.keys(Writable.prototype); 
for (var v = 0; v < keys.length; v++) { 
var method = keys[v]; 
if (!Duplex.prototype[method]) 
Duplex.prototype[method] = writable.prototype[method]; 


Duplex 首先 继承 了 Readable , AA javascript ZA C++ 的 多 重 继承 的 特性 ， 
所 以 遍历 writable 的 原型 方法 然后 赋值 到 Duplex 的 原型 上 。 


transform ii 


转换 流 (Transform streams) 是 一 种 输出 由 输入 计算 所 得 的 双 工 流 。 它 同时 实现 了 
Readable 和 Writable 接口 。 


Node 中 的 转换 流 有 : 


e zlib streams 
e crypto streams 


你 可 以 将 transform 流 想象 成 一 个 流 的 中 间 部 分 ， 它 可 以 读 也 可 写 ， 但 是 并 不 保存 数 
据 ， 它 只 负责 处 理 流 经 它 的 数据 。 


流 式 处 理 的 优势 : 将 功能 切 分 ， 并 通过 管道 组 合 。 


https://github.com/substack/stream-handbook 


Net 网 络 


118 


Socket 


网 络 (Net) 


网 络 模 型 


ISO 制定 的 OSI 参考 模型 的 过 于 庞大 、 复 杂 招 致 了 许多 批评 。 与 此 对 照 ， 由 技术 人 
员 自 己 开发 的 TCP/ IP 协 议 栈 获得 了 更 为 广泛 的 应 用 。 如 图 所 示 ， 是 TCP/IP 参 考 模 
型 和 OSI 参考 模型 的 对 比 示意 图 。 





ICTEOU.CN 


UDP vs TCP 


e TCP(Transmission Control Protocol) : 传输 控制 协议 
e UDP(User Datagram Protocol) : 用 户 数据 报 协议 


A F 3 424 (Connectivity) ^ "T 3t t£ (Reliability) ^ 4i Æt (Ordering) ^ A Jt 
(Boundary) ` 4 € 4€ #] (Congestion or Flow control) ` 44 43% (Speed) ^ € 7& 
(Heavy/Light weight) ` 3 3f X ^| (Header size) # # ° 


主要 差异 : 
e TCP 是 面向 连接 (Connection oriented) 的 协议 ，UDP 是 无 连接 (Connection 
less) 协 议 ; 
o TCP 用 三 次 握手 建立 连接 : 1) Client 向 server 发 送 SYN ; 2) Server 接 收 到 


SYN， 回 复 Client 一 个 SYN-ACK : 3)Client 接 收 到 SYN_ACK， 回 复 Server 
一 个 ACK。 到 此 ， 连 接 建成 。UDP 发 送 数据 前 不 需要 建立 连接 。 


119 


e TCP) 3 > UDPA T E : 
o TCP 丢 包 会 自动 重 传 ，UDP 不 会 。 


e TCP 有 序 ，UDP 无 序 ; 
o 消息 在 传输 过 程 中 可 能 会 乱 序 ， 后 发 送 的 消息 可 能 会 先 到 达 ，TCP 会 对 其 
进行 重 排序 ，UDP 不 会 。 


从 程序 实现 的 角度 来 看 ， 可 以 用 下 图 来 进行 描述 。 


创建 套 接 字 


socket 


侦 听 客户 请 求 
listen 


连接 服务 器 
connect 


接受 客户 连接 
accept 


发 送 /接受 
sendto/recvfrom 





接收 /发 送 发 送 / 接 受 
recv/send send/recv 
关闭 套 接 学 X nf 
XB KPA EES closesocket closesocket 
closesocket closesocket s 
UDP 服务 器 端 / UDP 客户 端 / 


TCP 服 务 器 端 TCP 客 户 端 flos AM 


从 上 图 也 能 清晰 的 看 出 ，TCP 通 信 需 要 服务 器 端 he cd 、 接 收 客户 端 连接 请 求 
accept， 等 待 客户 端 connect 建 立 连接 后 才能 进行 数据 包 的 收发 (recv/send) 工 
作 。 而 UDP 则 服务 器 和 客户 端的 概念 不 明显 ， E sx BP HEAL a ERRER c F 
待 客户 端的 数据 的 到 来 。 后 续 便 可 以 进行 数据 的 收发 (recvfrom/sendto) 工作 。 


Socket 抽象 


Socket 是 对 TCP/IP 协议 族 的 一 种 封装 ， 是 应 用 层 与 TCP/IP 协 议 族 通信 的 中 间 软 件 
抽象 层 。 它 把 复杂 的 TCP/IP 协 议 族 隐藏 在 Socket 接 口 后 面 ， 对 用 户 来 说 ， 一 组 简单 
的 接口 就 是 全 部 ， 让 Socket 去 组 织 数据 ， 以 符合 指定 的 协议 。 


Socket 还 可 以 认为 是 一 种 网 络 间 不 同 计算 机 上 的 进程 ; a ini 
ee me 信 可 以 利 
用 这 个 标志 与 其 进行 交互 。 


Socket 起 源 于 Unix > Unix/Linux 基本 哲学 之 一 就 是 “一 切 恬 文件”， 都 可 以 用 “打开 
(open) -> 读 写 (write/read) — 关闭 (close)" 模 式 来 进行 操作 。 因 此 Socket 也 被 处 理 
为 一 种 特殊 的 文件 。 


CHERE 


TCP A9 FB E 3E di: 


void TCPWrap: :Initialize(Local<Object> target, 
Local<Value> unused, 
Local<Context> context) { 
Environment* env = Environment: :GetCurrent(context); 


Local<FunctionTemplate> t = env->NewFunctionTemplate(New); 
t->SetClassName(FIXED_ONE_BYTE_STRING(env->isolate(), "TCP")); 
t->InstanceTemplate()->SetInternalFieldCount(1); 


/ Init properties 
t->InstanceTemplate()->Set(String: :NewFromUtf8(env->isolate(), 
"reading"), 
Boolean: :New(env->isolate(), false) 
); 
t->InstanceTemplate()->Set(String: :NewFromUtf8(env->isolate(), 
"owner"), 
Null(env->isolate())); 
t->InstanceTemplate()->Set(String: :NewFromUtf8(env->isolate(), 
"onread"), 
Null(env->isolate())); 
t->InstanceTemplate()->Set(String: :NewFromUtf8(env->isolate(), 
"onconnection") 


Null(env->isolate())); 


env->SetProtoMethod(t, "close", HandleWrap::Close); 


env->SetProtoMethod(t, "ref", HandleWrap: :Ref); 
env->SetProtoMethod(t, "unref", HandleWwrap::Unref); 


StreamWrap::AddMethods(env, t, StreamBase::kFlagHasWritev); 


env-»-SetProtoMethod(t, "open", Open); 
env->SetProtoMethod(t, "bind", Bind); 
env->SetProtoMethod(t, "listen", Listen); 
env->SetProtoMethod(t, "connect", Connect); 
env->SetProtoMethod(t, "bind6", Bind6); 
env->SetProtoMethod(t, "connect6", Connect6); 
env->SetProtoMethod(t, "getsockname", 
GetSockOrPeerName«TCPWrap, uv. tcp getsockn 
ame»); 
env-»-SetProtoMethod(t, "getpeername", 
GetSockOrPeerName«TCPWrap, uv. tcp getpeern 
ame»); 
env->SetProtoMethod(t, "setNoDelay", SetNoDelay); 
env-»-SetProtoMethod(t, "setKeepAlive", SetKeepAlive); 


Zifdef | WIN32 

env->SetProtoMethod(t, "setSimultaneousAccepts", SetSimultaneo 
usAccepts); 
Zendif 


target--Set(FIXED ONE BYTE STRING(env-»isolate(), "TCP"), t->G 
etFunction()); 
env-»set tcp constructor template(t); 


// Create FunctionTemplate for TCPConnectwrap. 
Local«FunctionTemplate» cwt - 
FunctionTemplate: :New(env->isolate(), NewTCPConnectWrap); 

cwt ->InstanceTemplate()->SetInternalFieldCount(1); 

cwt ->SetClassName(FIXED_ONE_BYTE_STRING(env->isolate(), "TCPCO 
nnectwrap")); 

target--Set(FIXED ONE BYTE STRING(env-»isolate(), "TCPConnectW 
rap"), 

cwt ->GetFunction()); 








TcPwrap 导出 了 TCP X > TCPConnectWrap 类 ， 并 且 我 们 看 到 对 IPV6 协 议 族 的 
支持 : bind6 ，connect6 ° 


TCP Socket 


Node.js 的 Net 模 块 也 对 TCP socket 进行 了 抽象 封装 : 


function Socket(options) ( 
if (!(this instanceof Socket)) return new Socket(options); 


this. connecting - false; 
this. hadError - false; 
this. handle - null; 
this. parent - null; 
this. host - null; 


if (typeof options --- 'number') 

options = ( fd: options }; // Legacy interface. 
else if (options --- undefined) 

options = {}; 


stream.Duplex.call(this, options); 


if (options.handle) { 
this._handle = options.handle; // private 
} else if (options.fd !== undefined) { 
this. handle = createHandle(options. fd); 
this. handle.open(options.fd); 
if ((options.fd -- 1 || options.fd -- 2) && 
(this. handle instanceof Pipe) && 
process.platform --- 'win32') ( 
// Make stdout and stderr blocking on Windows 
var err - this. handle.setBlocking(true); 


if (err) 
throw errnoException(err, 'setBlocking'); 
} 
this.readable = options.readable !== false; 
this.writable = options.writable !== false; 
} else { 


// these will be set once there is a connection 


this.readable = this.writable = false; 


// shut down the socket when we're finished with it. 
this.on('finish', onSocketFinish); 
this.on(' socketEnd', onSocketEnd); 


initSocketHandle(this); 


TERT 
j 


util.inherits(Socket, stream.Duplex); 


首先 Socket 是 一 个 全 双 工 的 Stream， 所 以 继承 了 Duplex » it 
createHandle 创建 套 接 字 并 赋值 到 this. handle 上 。 


同时 监听 finish , _socketEnd 事件 ， 


粘 包 


一 般 所 谓 的 TCP 粘 包 是 在 一 次 接收 数据 不 能 完全 地 体现 一 个 完整 的 消息 数据 。 
TCP 通 讯 为 何 存 在 粘 包 呢 ? 主 要 原因 是 TCP 是 以 流 的 方式 来 处 理 数据 ， 再 加 上 
网 络 上 MTU 的 往往 小 于 在 应 用 处 理 的 消息 数据 ， 所 以 就 会 引发 一 次 接收 的 数据 
无 法 满足 消息 的 需要 ， 导 致 粘 包 的 存在 。 处 理 粘 包 的 唯一 方法 就 是 制定 应 用 层 
的 数据 通讯 协议 ， 通 过 协议 来 规范 现 有 接收 的 数据 是 否 满足 消息 数据 的 需 


情况 分 析 


TCP 丫 包 通 常 在 流传 输 中 出 现 ，UDP 则 不 会 出 现 粘 包 ， 因 为 UDP 有 消息 边界 ， 发 送 
数据 段 需要 等 待 缓冲 区 满 了 才 将 数据 发 送出 去 ， 当 满 的 时 候 有 可 能 不 是 一 条 消息 而 
是 几 条 消息 合并 在 换 中 去 内 ， 在 成 粘 包 ; 另外 接收 数据 端 没 能 及 时 接收 缓冲 区 的 
包 ， 造 成 了 缓冲 区 多 包 合并 接收 ， 也 是 粘 包 。 


解决 办 法 


e 不 使 用 Nagle 算 法 , 使 用 提供 的 API: socket.setNoDelay ° 


UDP 
组 播 


e https://en.wikipedia.org/wiki/Multicast#IP_multicast/EF%BC%89%EF%BC% 
8C%E5%85%B7 


UDP Socket 


function Socket(type, listener) { 
EventEmitter.call(this); 


if (typeof type === 'object') { 
var options = type; 
type = options.type; 


var handle = newHandle(type); 
handle.owner = this; 


this._handle = handle; 
this._receiving = false; 
this._bindState = BIND_STATE_UNBOUND; 
this.type = type; 

this.fd = null; // compatibility hack 


// If true - UV_UDP_REUSEADDR flag will be set 
this._reuseAddr = options && options.reuseAddr; 


if (typeof listener === 'function') 
this.on('message', listener); 


} 


util.inherits(Socket, EventEmitter); 


Y 


UDP 继承 了 EventEmitter ,同样 也 支持 IPVATe IPV6 协 议 ， 由 type 区 
this. reuseAddr 标识 是 否 要 使 用 选项 : SO REUSEADDR ° 


SO _ REUSEADDR 允 许 完全 重复 的 捆绑 : 当 一 个 IP 地 址 和 端口 绑 定 到 某 个 套 接 口上 
时 ， 还 允许 此 IP 地 址 和 端口 捆绑 到 另 一 个 套 接 口上 。 一 般 来 说 ， 这 个 特性 仅 在 支持 
多 播 的 系统 上 才 有， 而 且 只 对 UDP 套 接 口 而 言 (TCP 不 支持 多 播 ) 。 
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从 笔者 的 经 验 看 ， 尽 量 不 要 尝试 去 使 用 UDP ， 除 非 你 知道 委 包 了 对 于 应 用 是 没有 
影响 的 ， 否 则 排查 网 络 丢 包 会 使 人 崩溃 的 ! 


e https://en.wikipedia.org/wiki/Nagle's algorithm 


应 用 构建 


创建 TCP 服 务 端 


下 面 是 一 个 在 NodeJS 中 创建 TCP 服 务 端 套 接 字 的 简单 例子 ， 相 关 说 明 见 代码 注 


var net = require('net'); 


var HOST = 12/720 02a; 
var PORT 6969; 


// &|3£ —^TCPAR 4- 8$ Sc 6| > BA listen BAA 46 VE vp da x 3 n 
// f& Xnet.createServer ( ) fj e T ZEE A” connection” X a9 Ab 3E HAR 
// 4&&é&—^*"connection" $4 ¥ > KAA HARES S socket $t E — hg 
var server = net.createServer( ); 
server.listen(PORT, HOST); 
console.log('Server listening on ' + 

server.address().address + ':' + server.address().port); 


server.on('connection', function(sock) { 
console.log('CONNECTED: ' + 
sock.remoteAddress +':'+ sock.remotePort); 


3); 


首先 我 们 来 看 下 net.createserver ， 它 返回 一 个 Server 的 实例 ， 如 下 。 


1075 function Server(options, connectionListener) ( 
1076 if (!(this instanceof Server)) 


1077 return new Server(options, connectionListener); 
1078 

1079 EventEmitter.call(this); 

1080 

1081 var self - this; 

1082 

1083 if (typeof options === 'function') { 

1084 connectionListener = options; 

1085 options = {}; 

1086 self.on('connection', connectionListener ); 
1087 ) else { 

1088 options = options || {}; 

1089 

1090 if (typeof connectionListener === 'function') { 
1091 self.on('connection', connectionListener ); 
1092 } 

1093  ) 

1094 

1095 this. connections - 0; 

1096 £u. 

as Et 


1112 this._handle = null; 

1113 this._usingSlaves = false; 

1114 this._slaves = []; 

2115 this. unref - false; 

1116 

au this.allowHalfOpen = options.allowHalfOpen || false; 
1118 this.pauseOnConnect = !!options.pauseOnConnect; 

1119 } 

1120 util.inherits(Server, EventEmitter); 


Server 继承 了 EventEmitter , 如果 传人 callback 2 > L1086 » L1091 则 把 
传人 的 函数 作为 监听 者 绑 定 到 connnection 事件 上 ， 然 后 listen 。 我 们 看 看 作 
为 server 端 连 接 到 来 的 回调 处 理 。 


1400 function onconnection(err, clientHandle) { 
1401 var handle = this; 
1402 var self = handle.owner; 


1403 

1404 debug('onconnection'); 

1405 

1406 if (err) { 

1407 self.emit('error', errnoException(err, 'accept')); 
1408 return; 

1409  ) 

1410 


1411 if (self.maxConnections && self. connections >= self.maxc 
onnections) { 


1412 clientHandle.close(); 

1413 return; 

1414 > 

1415 

1416 var socket = new Socket({ 

1417 handle: clientHandle, 

1418 allowHalfOpen: self.allowHalfOpen, 
1419 pauseOnCreate: self.pauseOnConnect 
1420 D: 

aa) socket.readable = socket.writable = true; 
1422 

1423 


1424 self._connections++; 
1425 socket.server = self; 
1426 socket._server = self; 


1427 LITET 
1431 self .emit('connection', socket); 
1432 } 


此 函数 由 TCPWrap: :OnCconnection 回调 ， tcp_wrap->MakeCallback(env- 
>onconnection_string(), ARRAY_SIZE(argv), argv); ， 第 一 个 参数 标识 状 
态 ， 第 二 个 参数 为 连接 的 句柄 。 


L1416-L1421, 根据 传 过 来 的 句柄， 创建 JS 层面 的 Socket。 并 在 L1431 向 观察 者 
发 送 connection 事件 。 


Ew TCP 服务 端的 例子 ，server XE yt connection F4 » A ZUA P eH e 


ATCP P 35 
现在 让 我 们 创建 一 个 TCP 客 户 端 连接 到 刚 创建 的 服务 器 上 ， 该 客户 端 向 服务 器 发 送 
一 串 消息 ， 并 在 得 到 服务 器 的 反馈 后 关闭 连接 。 下 面 的 代码 描述 了 这 一 过 程 。 


var net = require('net'); 


Var HOST = 5327899 05 
var PORT 6969; 


var client = new net.Socket(); 
client.connect(PORT, HOST, function() { 


console.log('CONNECTED TO: ' + HOST + ':' + PORT); 
// 建立 连接 后 立即 向 服务 器 发 送 数据 ， 服 务 器 将 收 到 这 些 数 据 
client.write('I am Chuck Norris!'); 


3); 


// 为 客户 端 添加 “data7 事 件 处 理 函 数 
// data 是 服务 器 发 回 的 数据 
client.on('data', function(data) { 


console.log('DATA: ' + data); 
// 完全 关闭 连接 


client.destroy(); 


3); 


// ABP mim close” FAFA A 
client.on('close', function() { 
console.log('Connection closed'); 


3); 


创建 Socket HÆ ° client 34 serverin RAE > A AEZ A> FB 
^ DNS 查询 (提供 IP 的 不 用 ) > 387] lookupAndConnect ,之 后 才 是 调用 
function connect(self, address, port, addressType, localAddress, 
localPort) 发 起 连接 。 


我 们 注意 到 五 元 祖 : «remoteAddress, remotePort, addressType, 
localAddress, localPort> ,他们 唯一 的 标识 了 一 个 网 络 连接 。 


建立 起 全 双 工 的 Socket 后 ， 用 户 程序 就 可 以 监听 「data」 事件 ， 获 取 数 据 了 。 


CK 
s 


Sp 
A 


Crypto 


fr A x SSL ? 


Secure Sockets Layer， 这 是 其 全 名 ， 他 的 作用 是 协议 ， 定 义 了 用 来 对 网 络 发 出 的 


数据 进行 加 密 的 格式 和 规则 。 


AES Sree + 
-+ 
服务 器 | data | -- SSL 加 密 --» RŽ --> 接收 -- SSL MB 
| 客户 端 
he ES + 
-+ 
Reais + 
-+ 
服务 器 | data | -- SSL 解密 --> 接收 <-- 发 送 -- SSL WH 
| ZPH 
TE + 
-+ 


注 : TLS 1.0 等 同 于 SSL 3.1，TLS 1.1 等 同 于 SSL 3.2 > TLS 12 等 同 于 SSL 


CECI 


OpenSSL 


OpenSSL 是 在 程序 上 对 SSL 标准 的 一 个 实现 ， 提 供 了 : 


e libcrypto 通用 加 密 库 
e libssl TLS/SSL 的 实现 
e openssl 命令 行 工具 


Node.js 是 完全 采用 OpenSSL 进行 加 密 的 ， 其 相关 的 TLS HTTPS 服务 器 模块 和 


Crypto 加 密 模 块 都 是 通过 C++ 在 底层 调用 OpenSSL ° 


OpenSSL 实现 了 对 称 加 密 : 


AES(128) | DES(64) | Blowfish(64) | CAST(64) | IDEA(64) | RC2(64 
) | RC5(64) 


非 对 称 加 密 : 


DH | RSA | DSA | EC 


以 及 一 些 信 息 摘要 : 


MD2 | MD5 | MDC2 | SHA | RIPEMD | DSS 


其 中 信息 摘要 是 一 些 采 用 哈 希 算法 的 加 密 方 式 ， 也 意味 着 这 种 加 密 是 单 向 的 ， 不 能 
反 向 解密 。 这 种 方式 的 加 密 大 多 是 用 于 保护 安全 口令 ， nde Solan 。 这 里 面 我 们 
最 长 用 的 是 MD5 和 SHA (建议 采用 更 稳定 的 SHA1, MD5 通 过 查 表 大 法 已 经 不 再 单 
向 ) 。 


使 用 非 对 称 加 密会 损耗 性 能 ， 对 称 加 密 又 不 能 在 网 络 传 输 ， 那 该 怎么 办 呢 ?答案 
是 :结合 两 者 一 起 使 用 。 ssl/tls 实际 上 也 是 如 此 ， tls 将 两 者 完美 组 合 使 用 


及 


TLS HTTPS JR $ % 


想 要 建立 一 个 Node.js TLS 服务 器 ， 需 要 使 用 tls 模块 : 


8 


var Tls = require('tls'); 
在 开始 搭建 服务 器 之 前 ， 我 们 还 有 些 重要 的 工作 要 做 ， 那 就 是 证 书 ， 签 名 证 书 。 


基于 SSL 加 密 的 服务 器 ， 在 与 客户 端 开始 建立 连接 时 ， 会 发 送 一 个 签名 证 书 。 客 
户 端 在 自己 的 内 部 存储 了 一 些 公认 的 权威 证 书 认 证 机 构 ， 即 CA。 客 户 端 通过 在 自 
2H CA 表 中 查找 ， 来 匹配 服务 器 发 送 的 证 书 上 的 签名 机 构 ， 以 此 来 判断 面 对 的 服 
务 器 是 不 是 一 个 可 信 的 服务 器 。 


如 果 这 个 服务 器 发 送 的 证 书 ， 上 面 的 签名 机 构 不 在 客户 端的 CA 列表 中 ， 那 么 这 个 
服务 器 很 有 可 能 是 伪造 的 ， 你 应 该 听 说 过 "中间 人 攻击 ”。 


To eee aye 

| EWR Z 选择 权 : 连 接 ? 不 连接 2? +------- 十 

C E x +------------------ | 客户 端 | 
https | +------- + 

Be + | 拦截 通信 和 包 

| 破坏 者 的 服务 器 | ---------- + 

+-------------- + ”证 书 是 伪造 的 

总 结 


加 密 的 安全 性 ， 主 要 是 以 下 两 种 因素 共同 决定 


使 用 的 加 密 算 法 


e 密 钥 (key) 的 长 度 
e 在 相同 的 算法 下 ， 密 钥 长 度 增加 一 位 ， 暴 力 破解 的 难度 指数 级 增加 。 如 果 使 用 


对 称 加 密 ， 现 在 AES-256 足 够 安全 。 
不 过 据说 RSA 的 1024 位 密 钥 已 经 能 被 政府 用 非常 昂贵 的 设备 暴力 破解 ， 所 以 在 使 用 
RSA 算 法 时 ， 密 钥 长 度 要 选 2048， 并 没有 决 对 的 安全 。 


加 密 的 性 能 上 ， 


参考 


e http://www.jianshu.com/p/a8b87e436ac7 


HTTP 


135 


HTTP 1/2 
回 到 我 们 之 前 的 Hello World | 例子 , 448 ZC (T Bp ° 


const http = require('http'); 
const hostname = '127.0.0.1'; 
const port = 1337; 


http.createServer((req, res) => { 
res.writeHead(200, { 'Content-Type': 'text/plain' }); 
res.end('Hello World\n'); 

}).listen(port, hostname, () => ( 
console.log( Server running at http://${hostname}:${port}/ ); 


3); 


为 Node js 把 许多 细节 都 已 在 源码 中 封装 好 了 ， 主 要 代码 在 lib/http*.js 这 些 文件 
中 ， 现 在 就 让 我 们 照 着 上 述 代码 ， 看 看 从 一 个 HTTP 请 求 的 到 来 直到 响应 ， 
Node.js 都 为 我 们 在 源码 层 做 了 些 什么 。 


Server 


在 Node.js 中 ， 若 要 收 到 一 个 HTTP 请 求 ， 首 先 需要 创建 一 个 http.Server 类 的 实 
例 ， 然 后 监听 它 的 request 事件 。 由 于 HTTP. 协议 属于 应 用 层 ， 在 下 层 的 传输 层 通 
常 使 用 的 是 TCP 协议 ， 所 以 net.Server 类 正 是 http.Server 类 的 父 类 。 


#/ lib/_ http server.js 
// 


function Server(requestListener) { 

if (!(this instanceof Server)) return new Server(requestListen 
er); 

net.Server.call(this, { allowHalfOpen: true }); 


if (requestListener) { 
this.addListener('request', requestListener); 


// 
this.addListener('connection', connectionListener ); 


this.addListener('clientError', function(err, conn) { 
conn.destroy(err); 


3); 
this.timeout - 2 * 60 * 1000; 


this. pendingResponseData = 0; 


j 


util.inherits(Server, net.Server); 

requestListener 回调 元 数 作为 观察 者 ， 监 听 了 request 事件， 默认 超时 时 
间 为 2 分 钟 。 
而 当 连 接 建立 时 ， 观 察 者 connectionListener 处 理 connection 事件 。 


这 时 ， 则 需要 一 个 HTTP parser 来 解析 通过 TCP 传输 过 来 的 数据 : 


// lib/_hnttp server .js 
const parsers = common.parsers; 


Jl 


function connectionListener(socket) { 
4 DE 
var parser - parsers.alloc(); 
parser.reinitialize(HTTPParser . REQUEST); 
parser.socket - socket; 
socket.parser = parser; 
parser.incoming = null; 
PIN 


HTTP Parser 


值得 一 提 的 是 ，parser 是 从 一 个 “ 池 "” 中 获取 的 ， 这 个 “ 池 ?" 使 用 了 一 种 叫做 freelist 的 
数据 结构 。 为 了 尽 可 能 的 对 parser 进行 重用 ， 并 避免 了 不 断 调 用 构造 函数 的 消 
耗 ， 且 设 有 数量 上 限 (http 模块 中 为 1000) ° 


HTTPParser 的 实现 目前 由 CHRE EI > BRAR deps/http parser 目录 。 但 笔 
者 这 边 拓展 一 下 : 


社区 有 过 对 http_parser 实现 性 能 的 争论 ， 性 能 上 JS 实现 的 版 本 超越 C 的 实现 。 
原因 是 多 方面 的 : 


e 去 调 了 C++ MRE 
e JS ÈI BRT CRF JS 堆栈 的 切换 和 参数 捞 贝 。 
e V8 JIT 对 热点 函数 的 优化 。 


即便 有 上 述 优势 ， 社 区 目前 还 是 没有 合并 ， 处 于 pending 状态 ， 结 合 个 人 和 社区 观 
m 


e. 3E Kis 4 3 X garbage collection 频繁 ， 触 发 GC 停顿 。 
e 可 以 作为 第 三 方 模块 存在 。 


pull request: https://github.com/nodejs/node/pull/1457/ 


这 里 的 parser 也 是 基于 事件 的 ， 很 符合 Node js 的 核心 思想 。 


// 1ib/_http_common.js 

const binding = process.binding('http parser'); 

const HTTPParser = binding.HTTPParser; 

const FreeList = require('internal/freelist').FreeList; 


Lf 
42. 


var parsers = new FreeList('parsers', 1000, function() { 
var parser = new HTTPParser(HTTPParser . REQUEST) ; 
ji / TP 
parser[kOnHeaders] = parserOnHeaders; 
parser[kOnHeadersComplete] - parserOnHeadersComplete; 
parser[kOnBody] = parserOnBody; 
parser[kOnMessageComplete] = parserOnMessageComplete; 


parser[kOnExecute] - null; 


return parser; 


3); 


exports.parsers - parsers; 


/7 lib/ http server.js 


Neg f 

Fa 

function connectionListener(socket) { 
parser.onIncoming = parserOnIncoming; 


所 以 一 个 完整 的 HTTP 请 求 从 接收 到 完全 解析 ， 会 挨个 经 历 parser 上 的 如 下 事件 


WK yee 
ATE: 


e parserOnHeaders : 不 断 解析 推 入 的 请 求 头 数 据 。 

e parserOnHeadersComplete : 请 求 头 解析 完毕 ， 构 造 header 对 象 ， 为 请 求 体 
创建 http.IncomingMessage 实例 。 

e parserOnBody : 不 断 解析 推 入 的 请 求 体 数 据 。 

e parserOnExecute : 请 求 体 解析 完毕 ， 检 查 解 析 是 否 报错 ， 若 报错 ， 直 接触 发 
clientError 事件 。 若 请 求 为 CONNECT 方法 ， 或 带 有 Upgrade 头 ， 则 直接 触 
发 connect 或 upgrade 事件 。 

e parserOnIncoming : 处 理 具体 解析 完毕 的 请 求 。 


前 面 提 到 的 request 事件 到 底 是 在 哪里 触发 的 呢 ? 回 到 源码 


// lib/ http server.js 
// 


function connectionListener(socket) { 
var outgoing = []; 
var incoming = []; 
Lf, 


function parserOnIncoming(req, shouldKeepAlive) { 
incoming.push(req); 
Mi 
var res = new ServerResponse(req); 


if (socket._httpMessage) { 
outgoing.push(res); 

} else { 
res.assignSocket(socket); 


res.on('finish', resOnFinish); 
function resOnFinish() ( 
incoming.shift(); 
y 
var m = outgoing.shift(); 
if (m) { 


m.assignSocket(socket); 


j 
// 


self.emit('request', req, res); 


我 们 注意 到 2 个 队列 ， incoming 和 outgoing , 他 们 用 于 缓冲 
IncomingMessage 实例 和 对 应 的 ServerResponse 实例 。 通过 
IncomingMessage 实例 构建 相应 的 ServerResponse 实例 , 并 且 通 过 


res.assignSocket(socket); > HÆTT 三 元 组 «req, res, socket» 。 


最 后 ， 发 送 request 事件 ， 参 数 为 req, res » I £| hello world 中 ， 监 听 者 拿 到 req 
和 res, 向 response 流 中 写 入 HTTP 头 和 内 容 发 送出 去 。 


P 


对 象 池 也 是 内 存 池 的 一 种 衍生 ， 需 要 在 内 存 和 性 能 方面 折 中 考量 。 
面 


上 面 只 是 梳理 了 一 个 主线 ， 其 他 异常 处 理 ， 安 全 等 方面 剖析 后 面 的 章节 会 一 一 解 
读 。 
参考 


e https://docs.google.com/document/d/1A3cxhZg2aktJeSGtOP- 
8KrA4WyG1c8LlPomQflaQs8s/edit 


HTTP 2/2 


http 模块 提供 了 两 个 函数 http.request 和 http.get， 功 能 是 作为 客户 端 向 HTTP 服 务 
这 通常 来 实现 自己 的 恨 虫 程序 ， 笔 者 自己 写 的 一 个 卜 取 知 竹 的 一 个 例 
f : https://github.com/yjhjstz/iZhihu 


GET 例子 


const http = require("http") 
http.get('http://www.baidu.com', (res) => ( 
console.log( Got response: $[(res.statusCode) ); 
// consume response body 
res.resume( ); 
)).on('error', (e) => { 
console.log( Got error: $[e.message) ); 


3); 


上 面 的 程序 会 返回 一 个 200 的 状态 码 ! 


HTTP Client 


Node.js 中 ，http.get 通过 创建 一 个 ClientRequest 的 对 象 ， 建 立 与 服务 端的 连 
接 通信 。 


A Mitb/ http client’. js 

function ClientRequest(options, cb) f 
var self = this; 
OutgoingMessage.call(self); 


"ATIS 
const defaultPort - options.defaultPort || 
self.agent && self.agent.defaultPort; 


var port - options.port - options.port || defaultPort || 80; 


var host = options.host = options.hostname || options.host | | 
' localhost'; 


if (options.setHost --- undefined) ( 
var setHost - true; 


self.socketPath - options.socketPath; 


var method - self.method - (options.method || 'GET').toUpperCa 
se(); 
if (!common. checkIsHttpToken(method)) ( 
throw new TypeError('Method must be a valid HTTP token'); 


} 
self.path = options.path || '/'; 
if (cb) { 
self.once('response', cb); 
} 
YH 


var called = false; 
if (self.socketPath) { 
"P PES 
) else if (self.agent) { 
Thea: 
) else { 
// No agent, default to Connection:close. 
self. last - true; 
self.shouldKeepAlive - false; 
if (typeof options.createConnection === 'function') ( 
const newSocket - options.createConnection(options, oncrea 
te); 
if (newSocket && !called) { 
called - true; 
self.onSocket(newSocket); 
) else ( 
return; 


} 
} else { 


debug( "CLIENT use net.createConnection', options); 
self .onSocket(net.createConnection(options) ); 


function oncreate(err, socket) { 
Ti 


self._deferToConnect(null, null, function() { 
self. flush(); 
self - null; 


+); 


util.inherits(ClientRequest, OutgoingMessage); 


callback 通过 self.once('response', cb); ,监听 了 response 事件 。 之 后 如 果 
没有 设置 代理 服务 ， 则 默认 使 用 net 模块 创建 与 服务 器 的 连接 。 那 么 response # 
件 是 哪里 发 送 的 呢 ? 


下 面 我 们 看 到 比较 重要 的 onsocket 函数。 


ClientRequest.prototype.onSocket = function(socket) { 
process.nextTick(onSocketNT, this, socket); 


ia 


function onSocketNT(req, socket) { 
if (req.aborted) { 


// If we were aborted while waiting for a socket, skip the w 
hole thing. 
socket.emit('free'); 
} else { 
tickOnSocket(req, socket); 


iiij onSocket 必须 是 一 个 异步 函数 ， 大 家 可 以 仔细 体会 下 ! 同时 onSocketNT 2 
异常 做 了 处 理 ， 当 请 求 失败 时 ， 则 发 送 free 事件 。 否则 来 到 tickOnSocket 。 


function tickOnSocket(req, socket) ( 
var parser - parsers.alloc(); 
req.socket - socket; 
req.connection - socket; 
parser.reinitialize(HTTPParser RESPONSE); 
parser.socket - socket; 
parser.incoming - null; 


parser.outgoing req; 


req.parser - parser; 


socket.parser = parser; 
socket._httpMessage = req; 


// Setup "drain" propagation. 
httpSocketSetup(socket); 


// Propagate headers limit from request object to parser 
if (typeof req.maxHeadersCount --- 'number') ( 
parser.maxHeaderPairs = req.maxHeadersCount << 1; 
) else { 
// Set default value because parser may be reused from FreeL 
LSE 
parser.maxHeaderPairs = 2000; 


parser.onIncoming = parserOnIncomingClient; 

socket. removeListener('error', freeSocketErrorListener); 
socket.on('error', socketErrorListener ) ; 
socket.on('data', socketOnData); 

socket.on('end', socketOnEnd); 

socket.on('close', socketCloseListener); 
req.emit('socket', socket); 


同 HTTP Server 类 似 ， 从 池 中 申请 一 个 解析 器 ， 用 于 解析 HTTP 协议 ， 到 这 一 步 
说 明 连 接 已 经 建立 ， 所 以 重新 设置 error 事件 的 回调 。 


同时 设置 数据 回调 等 ， 然 后 发 送 socket 事件 , 来 到 


parserOnIncomingClient . 


HTTP Client 


Lene Lent 

function parserOnIncomingClient(res, shouldKeepAlive) { 
var socket - this.socket; 
var req - socket. httpMessage; 


// propagate "domain" setting... 

if (req.domain && !res.domain) ( 
debug('setting "res.domain"'); 
res.domain - req.domain; 


debug('AGENT incoming response!'); 


if (req.res) { 
// We already have a response object, this means the server 
// sent a double response. 
socket.destroy(); 
return; 


j 


req. res = res; 


var isHeadResponse = req.method === 'HEAD'; 


Thee 
req.res = res; 


res.req req; 

// add our listener first, so that we guarantee socket cleanup 
res.on('end', responseOnEnd) ; 

var handled = req.emit('response', res); 


// If the user did not listen for the 'response' event, then t 
hey 
// can't possibly read the data, so we . dump() it into the vo 
id 
// so that the socket doesn't hang there in a paused state. 
if (!handled) 
res. dump(); 
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return isHeadResponse; 


} 


在 这 里 发 送 response 事件 ， 参 数 对 象 res 上 也 挂 上 了 req WKe KH req 和 
res 就 相互 引用 。 


用 户 的 callback 终于 得 到 回调 。 


上 面 只 是 梳理 了 一 个 http client 主线 ， 实 际 我 们 很 少 使 用 该 模块 ， 而 是 使 用 第 三 方 
J npm 包 ， 比 如 


Id. 


e urllib (4 3 2) 
e request 


参考 


Chapter 11 


文件 系统 实现 原理 


文件 系统 存储 在 磁盘 上 ， 一 般 磁盘 会 被 划分 为 多 个 分 区 ， 每 个 分 区 可 以 是 一 个 独立 
的 文件 系统 。 


ak 850-9 A RA 3-5] 3- iG 3k (Master Boot Record，MBR)， 用 来 引导 计算 机 。 


在 MBR 的 结尾 是 分 区 表 ， 该 分 区 表 标 识 了 每 个 分 区 的 起 始 和 结束 地 址 。 表 中 的 一 个 
分 区 被 标识 为 活动 分 区 ， 在 计算 机 被 引导 时 ，BIOS 读 入 并 执行 MBR。MBR 做 首先 
做 的 是 确定 活动 分 区 ， 读 入 它 的 第 一 个 块 ， 称 为 引导 块 ， 并 执行 。 


一 种 第 见 的 文件 系统 (分 区 ) 结构 图 


The Inode Table (Closeup) 
' iblock 0 ' iblock 1 ' iblock 2 ' iblock3 ' iblock 4 


Lo | 1 | 2| 3 t6 17|18 v9 32 |s3 |s4 'a5 | 4849/50/51 |64 |e5 [66 |67] 
[4 |5 | 6 | 7 |20 2t 22 23 [36 37 |38 3e |a '53| 4 '55 [68 eo [70|71 | 
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p re a ss asas [o lalaslaola7|eole ee[ss e[7778|79] 
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e SuperX 
o 在 系统 启动 时 ， 会 读 取 Super 块 ， 它 包含 了 文件 系统 的 所 要 重要 参数 , 通常 
会 做 多 个 备份 。 


e i-bmap 块 
o 用 来 管理 inode， 标 识 inode 是 否 空 闲 或 被 使 用 了 。 
e d-bmap 块 


o 用 来 管理 磁盘 块 ， 标 识 磁盘 块 是 空闲 还 是 被 使 用 了 。 


文件 系统 实现 
文件 系统 一 个 重要 的 功能 是 记录 文件 使 用 了 哪些 磁盘 块 以 及 磁盘 块 的 管理 ， 标 识 磁 
AETA’ BEZA. ZEKA TA JLF o 

连续 分 配 


o 把 每 个 文件 存储 在 相 邻 的 磁盘 块 上 。 如 磁 瘟 块 大 小 2KB,200KB 的 文件 ， 需 
要 100 个 磁盘 块 ， 如 果 磁 盘 块 大 小 为 4KB, 刚 需要 50 个 磁盘 块 。 


由 于 每 个 文件 都 是 从 一 个 新 的 磁盘 块 开始 的 ， 这 样 如 果 一 个 文件 只 占 了 磁 
盘 块 大 小 的 一 半 ， 那 么 另 一 半 就 被 浪费 了 ， 没 法 被 别 的 文件 使 用 ， 不 过 连 
续 分 配 的 实现 ， 实 现 比较 简单 ， 只 需要 记录 文件 的 第 一 个 磁盘 块 位 置 和 块 
数 ， 另 外 读 取 性 能 ， 因 为 只 需要 一 次 寻 道 ， 之 后 不 需要 导 道 和 旋转 延迟 。 


随 着 时 间 推 移 ， 磁 瘟 碎 片 比较 严重 。 因 为 反复 写 文件 ， 删 除 文 后 ， 容 易 在 
磁盘 块 上 形成 空洞 。 


o 为 每 个 文件 构造 磁盘 块 链表 ， 每 个 块 在 前 面 指向 文件 的 下 一 个 磁盘 块 。 


因为 是 一 个 链表 ， 所 以 顺序 读 取 很 快 ， 但 随机 读 取 很 慢 ， 且 每 个 块 中 ， 指 
向 下 一 个 磁盘 块 的 指针 是 要 占用 空间 的 ， 这 样 导致 每 个 磁盘 块 能 够 存储 的 
数据 不 再 是 2 的 整数 次 等 。 

但 程序 读 写 文件 一 般 是 以 2 的 整数 次 器 来 读 写 磁盘 ， 这 样 造 成 额外 的 开 
销 ， 因 为 读 一 个 块 的 数据 ， 要 读 取 二 个 磁盘 块 。 


e inode 节点 方案 


o 使 用 一 个 特殊 的 东西 来 记录 每 个 文件 的 所 使 用 的 磁盘 块 ， 这 特殊 的 东西 称 
为 节点 数据 结构 ， 其 存储 了 文件 一 些 属性 及 文件 所 使 用 的 到 的 磁盘 块 。 


i 节点 只 有 在 对 应 的 文件 被 打开 时 ， 才 会 存在 内 存 中 ， 这 样 即使 文件 系统 文 
件 非常 多 ， 只 要 打开 的 文件 不 多 ， 就 不 会 占用 太 多 的 内 存 。 

文件 的 元 数据 和 文件 数据 是 分 开 存 储 ， 也 就 是 一 个 文件 有 i 节 点 和 数据 文件 
这 两 个 属性 。 

每 个 存储 j 节 点 的 磁 瘟 块 空 间 是 有 限 ， 且 一 个 文件 只 有 一 个 ij 节点 ， 那 么 当 
一 个 文件 比较 大 时 ， 怎 么 解决 ?大 家 想 没有 想起 C 语 言 中 的 指针 及 指针 的 
指针 。 

一 种 解决 办 法 是 预 留 部 分 数据 块 ， 用 来 存储 指向 磁盘 块 的 指针 ， 而 不 是 直 
接 直接 指向 磁盘 块 。 


Linux 文 件 系 统 的 实现 


Unix/Linux 文 件 系统 的 实现 是 采用 i 节 点 的 方案 ， 文 件 系 统 ext2、ext3 都 是 如 此 ， 
ext4 相 比 前 面 二 种 文件 ， 做 了 不 少 优 化 ， 本 书 便 不 在 此 展开 。 


文件 系统 与 操作 系统 的 协作 


文件 系统 是 操作 系统 的 一 部 分 ， 操 作 系 统 是 相对 稳定 ， 但 文件 系统 却 是 有 好 多 ， 如 
ext2 ` ext3 ^ ext4 ^ ZFS 等 ， 那 么 操作 系统 是 如 何 兼 容 这 些 不 同 的 文件 系统 ， 以 对 
外 提供 统一 服务 。 

C++、JAVA 程 序 员 很 容易 想到 利用 多 态 来 实现 ， 对 ， 操 作 系统 也 是 采用 类 似 的 思 

路 。 对 不 同 的 文件 系统 ， 抽 象 出 所 有 文件 系统 都 支持 的 、 基 本 的 、 概 念 上 的 数据 结 
构 和 接口 ， 如 前 文 描述 的 关于 文件 和 目录 的 基本 操作 。 


些 统一 抽象 组 件 ， 叫 着 虚拟 文件 系统 (Virtual File System ,VFS),VFS 作 为 系统 内 


这 些 
该 组 件 ， 为 用 户 空 间 程序 提供 了 文件 和 文件 系统 相关 的 接口 。 
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VFS 使 用 得 用 户 可 以 直接 调用 Write、read 这 样 的 文件 系统 调用 ， 而 不 用 考虑 底层 的 
文件 是 什么 文件 系统 。 


横向 地 看 下 它们 的 关系 ， 如 下 图 所 示 


read/write sys_read/ 
sys_write 


E 








文件 系统 






具体 的 文件 系 


统 





(x 
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文件 系统 是 对 磁盘 设备 的 抽象 ， 屏 蔽 了 具体 的 存储 类 型 ， 比 如 磁盘 ， 内 存 。 


TIFA 2 


fs 模块 是 文件 操作 的 封装 ， 它 提供 了 文件 的 读 取 、 写 入 、 更 名 、 删 除 、 人 遍历 目 录 、 
链接 POSIX 文 件 系 统 操作 。 与 其 他 模块 不 同 的 是 ，fs 模 块 中 的 所 有 操作 都 提供 了 弄 
步 和 同步 两 个 版 本 ， 例 如 读 取 文 件 内 容 函 数 的 异步 方法 : readFile(), 同 步 方法 
readFileSync() ° 


— ha Fe LE 


“— ty x PE’ X Unix/Linux 的 基本 哲学 之 一 。 不 仅 普 通 的 文件 ， 目 录 、 字 符 设 
备 、 块 设备 、 套 接 字 等 在 Unix/Linux 中 都 是 以 文件 被 对 待 ; 它们 虽然 类 型 不 同 ， 
但 是 对 其 提供 的 却 是 同一 套 操作 接口 。 





套 接 字 


文件 是 一 种 抽象 机 制 ， 它 对 磁盘 进行 了 抽象 。 


文件 就 是 字 节 序列 ， 每 个 |/O 设 备 ， 包 括 磁盘 、 键 盘 、 显 示 器 、 其 至 网 络 ， 都 可 以 抽 
象 成 文件 ， 在 Unix/Linux 系 统 中 ， 系 统 中 所 有 的 输入 输出 都 是 通过 调用 IO 系统 调用 
来 完成 。 


文件 是 对 ID 的 抽象 ， 就 像 谨 拟 存储 器 是 对 程序 存储 的 抽象 ， 进 程 是 对 一 个 正在 运行 
程序 的 抽象 。 这 些 都 是 操作 系统 重要 的 抽象 。 


抽象 机 制 最 重要 的 特性 是 对 管理 对 象 的 命名 ， 所 以 文件 有 文件 名 ， 且 文件 名 要 符合 
一 定 的 规范 。 


文件 主要 操作 


e open 

e read 

e write 

e close 上 面 的 操作 比较 简单 ， 就 不 是 细 说 ， 后 面 会 写 文章 再 介绍 读 文件 、 写 文 
件 、 刷 新 数据 这 几 个 重要 的 操作 。 如 果 有 兴趣 ， 可 以 通过 man 2 read 命令 来 查 
看 帮助 文档 。 


文件 类 型 
可 以 通过 |s -| 查看 文件 类 型 ， 主 要 有 下 面 几 种 常见 的 。 


。 普通 文件 
o 包括 文本 文件 和 二 进 制 文件 
。 目录 
o 和 普通 文件 相 比 ， 目 录 也 存储 在 介质 上 ， 但 是 目录 不 存储 常规 文件 ， 它 只 
是 用 来 组 织 、 管 理 文件 。 
e proc 文 件 
o proc 不 存储 ， 所 以 不 占用 任何 空间 ，proc 使 得 内 核 可 以 生成 与 系统 状态 和 
a LU UU M M LE + 通 文件 读 取 ， 无 需 专 
门 的 工具 。 其 它 更 多 的 文件 类 型 ， 可 以 通过 man ls 查看 。 


文件 属性 


文件 属性 包括 文件 权限 信息 、 创 建 时 间 、 最 后 修改 时 间 、 最 后 读 取 时 间 、 文 件 大 
小 、 文 件 引用 数 等 信息 ， 这 些 文件 属性 也 称 为 文件 元 数据 。 


LH RAZ AAIR E 


文件 映射 mmap 


man 2 mmap 查看 : 


#include <sys/mman.h> 


void *mmap(void *addr, size t len, int prot, int flags, int fd, 
off t offset): 


通过 mmap 系 统 调用 ， 把 一 个 文件 映射 到 进程 虚拟 址 址 空间 上 。 也 就 是 说 磁盘 上 的 
文件 ， 现 在 在 在 系统 看 来 是 一 个 内 存 数组 了 ， 这 样 应 用 程序 访问 文件 就 不 需要 系统 
IO 调用 ， 而 是 直接 读 取 内 存 。 

Vena 


e 1^ MAG RECEP ES > HR Tread ^ write £ 48945 W o 
e 2、 从 内 存 映 像 文件 中 读 写 ， 避 免 了 多 余 的 系统 调用 和 用 户 -内 核 模式 的 切换 
e 3、 可 以 多 个 进程 共享 内 存 映 像 文件 。 


缺点 : 


e 1、 内存 映像 需要 整数 倍 页 大 小 ， 如 果 文 件 较 小 ， 会 浪费 内 存 。 
e 2、 内存 映像 需要 进程 地 址 空间 ， 大 的 内 存 映 像 可 能 导致 地 址 空间 碎片 ， 找 不 
到 足够 大 的 空余 连续 区 域 供 其 它 用 。 


离散 VO 


readv 和 writev 函 数 让 我 们 在 单个 函数 调用 里 从 多 个 不 连续 的 缓冲 里 读 入 或 写 出 。 这 
些 操作 被 称 为 分 散 读 (scatter read) 和 集合 写 (gather write) ° 


#include <sys/uio.h> 
ssize_t readv(int filedes, const struct iovec *iov, int iovcnt); 


ssize t writev(int filedes, const struct iovec *iov, int iovcnt) 


, 


两 者 都 返回 读 或 写 的 字 节 数 ， 错 误 返 回 -1。 


两 个 函数 的 第 二 个 参数 是 指向 iovec 结 构 数组 的 一 个 指针 : 


struct iovec { 
void *iov base; /* starting address of buffer *7/ 
size t iov len; /* size of buffer */ 


}; 


iov 数 组 中 的 元 素数 由 iovcnt 说 明 。 其 最 大 值 受 限于 IOV_MAX。 

















iov [0] .iov base »- buffer0 | 
| A 
iov [0] .iov len len0 ~ len0 = 
iov [1] .iov base rr - 
- - — bufferl | 
jiov (1) .iov len leni - 
~ len! = 
iov [iovcnt-1] . iov base - buffer] | 
iov [iovcnt-1) .iov len lend ae len] —————p! 
en 


writev 以 顺 厅 mee > iov[1] 至 iov[iovcnt-1] 从 缓冲 区 中 聚集 输出 数据 。writev 返 回答 出 
的 字 节 总 数 ， 通 常 ， 它 应 等 于 所 有 缓冲 区 长 度 之 和 。 


readv 则 将 读 入 的 数据 按 上 述 同 样 顺序 散布 到 缓冲 区 中 。readv 总 是 先 击 满 一 个 缓冲 
区 ， 然 后 再 填写 下 一 个 。readv 返 回 读 到 的 总 字 节 数 。 如 果 遇 到 文件 结尾 ， 已 无 数 
据 可 读 ， 则 返回 0。 


eX 


e. 零 拷贝 技术 可 以 减少 数据 拷贝 和 共享 总 线 操作 的 次 数 ， 消 除 传 输 数据 在 存储 器 
之 间 不 必要 的 中 间 拷 贝 次 数 ， 从 而 有 效 地 提高 数据 传输 效率 。 而 且 ， 零 拷贝 技 
术 减 少 了 用 户 应 用 程序 地 址 空间 和 操作 系统 内 核 地 址 空间 之 间 因 为 上 下 文 切换 
而 带 来 的 开销 。 


是 用 户 程序 尝试 优化 的 重要 可 选 的 优化 手段 。 
e 向 量 |/O 操作 可 以 取代 多 个 线性 MO 操作 , 性 能 更 好 


o 除了 减少 了 发 起 的 系统 调用 次 数 ， 通 过 内 部 优化 ， 向 量 MO 可 以 比 线性 
l/O 提供 更 好 的 性 能 。 

o 支持 原子 性 , 一 个 进程 可 以 执行 单个 向 量 MO 操作 ， 避 免 了 和 其 他 进程 交 
又 操作 的 风险 。 


文件 抽象 


http://www.ibm.com/developerworks/cn/linux/l-cn-zerocopy 1 / 
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异步 那些 事 几 


Linux 异步 |/O X Linux 内 核 中 提供 的 一 个 相当 新 的 增强 。 它 是 2.6 版 本 内 核 的 一 
个 标准 特性 ，AIO A ion arin ne dr 而 不 用 阻塞 或 等 
竺 任何 操 作 完 成 。 稍 后 或 在 接收 到 |/O 操作 完成 的 通知 时 ， 进 程 就 可 以 检索 VO 操 
作 的 结果 


VO 模型 


在 深入 介绍 AIO API 之 前 ， 让 我 们 先 来 探索 一 下 Linux 上 可 以 使 用 的 不 同 |/O 模 
型 。 这 并 不 是 一 个 详尽 的 介绍 ， 但 是 我 们 将 试图 介绍 最 常用 的 一 些 模型 来 解释 它们 
与 异步 IO 之 间 的 区 别 。 图 1 给 出 了 同步 和 异步 模型 ， 以 及 阻塞 和 非 阻塞 的 模型 。 


Blocking Non-blocking 


Synch Read/wirte 


i/O multiplexing 
(select/poll) 


Asynchronous 





eee 
将 简要 对 其 一 一 进行 介绍 。 


同步 阻塞 IO 


最 常用 的 一 个 模型 是 同步 阻塞 MO 模型 。 在 这 个 模型 中 ， 用 户 空间 的 应 用 程序 执行 

一 个 系统 调用 ， 这 会 导致 应 用 程序 阻塞 。 这 意味 着 应 用 程序 会 一 直 阻 塞 ， 直 到 系统 
调用 完成 为 止 【数据 传输 完成 或 发 生 错 误 ) 。 调 用 应 用 程序 处 于 一 种 不 再 消费 CPU 
而 只 是 简单 等 待 响应 的 状态 ， 因 此 从 处 理 的 角度 来 看 ， 这 是 非常 有 效 的 。 图 2 给 出 
了 传统 的 阻塞 |/O 模型 ， 这 也 是 目 中 最 为 常用 的 一 种 模型 。 在 调用 read 
系统 调用 时 ， 应 用 程序 会 阻塞 并 对 内 核 进 行 上 下 文 切 换 。 然 后 会 触发 读 操 作 ， 当 响 


应 返回 时 (从 我 们 正在 从 中 读 取 的 设备 中 返回 ) ， 数 据 就 被 拷贝 到 用 户 空间 的 缓冲 
序 就 会 解除 阻塞 (read 调用 返回 ) © 















System call - kernel context switch 


initiate read I/O 


Read( ) 


Read response 









Data movement from 
kernel space to user space 


Application blocked 





从 应 用 程序 的 角度 来 说 ，read 调用 会 延续 很 长 时 间 。 实 际 上 ， 在 内 核 执行 读 操作 和 
其 他 工作 时 ， 应 用 程序 的 确 会 被 阻塞 。 


司 步 非 阻 塞 1/O 


同步 阻塞 VO 的 一 种 效率 稍 低 的 变种 是 同步 非 阻 塞 MO。 在 这 种 模型 中 ， 设 备 是 以 
非 阻塞 的 形式 打开 的 。 这 意味 着 VO 操作 不 会 立即 完成 ，read 操作 可 能 会 返回 一 个 
错误 代码 ， 说 明 这 个 命令 不 能 立即 满足 (EAGAIN 或 EWOULDBLOCK) ， 如 图 3 
所 示 。 









System call - kernel context switch 






initiate read I/O 







EAGAIN / EWOULDBLOCK 


System call - kernel contect switch 


EAGAIN / EWOULDBLOCK 







Read response 


Read( ) 
E 
= 






System call - kernel context switch 






Data movement from 
kernel space to user space 





JEM 2k 85 KIL VO 命令 可 能 并 不 会 立即 满足 ， 需 要 应 用 程序 调用 许多 次 来 等 待 操 
作 完 成 。 这 可 能 效率 不 高 ， 因 为 在 很 多 情况 下 ， 当 内 核 执 行 这 个 命令 时 ， 应 用 程序 
必须 要 进行 忙 克 等 待 ， 直 到 数据 可 用 为 止 ， 或 者 试图 执行 其 他 工作 。 正 如 图 3 所 示 
的 一 样 ， 这 个 方法 可 以 引入 VO 操作 的 延 时 ， 因 为 数据 在 内 核 中 变 为 可 用 到 用 户 调 
用 read 返回 数据 之 间 存 在 一 定 的 间隔 ， 这 会 导致 整体 数据 吞吐 量 的 降低 。 


异步 阻塞 1/O 


另外 一 个 阻塞 解决 方案 是 带 有 阻塞 通知 的 非 阻塞 IO。 在 这 种 模型 中 ， 配 置 的 是 非 
阻塞 IO， 然 后 使 用 阻塞 select 系统 调用 来 确定 一 个 MO 描述 符 何 时 有 操作 。 使 
select 调用 非常 有 趣 的 是 它 可 以 用 来 为 多 uma 通知 ， 而 不 仅仅 为 一 个 描述 

符 提供 通知 。 对 于 每 个 提示 符 来 说 ， ee 求 这 个 描述 符 可 以 写 数 据 、 有 读数 
据 可 用 以 及 是 否 发 生 错 误 的 通知 。 


Kernel 









System call - kernel context switch 





initiate read I/O 






EAGAIN / EWOULDBLOCK 







Select ( ) 


Read response 






Application blocked 


Select - data available (readable) 






System call - kernel context switch 







Data movement from 
kernel space to user space 





select 有 函数 所 提供 的 功能 (APEZ IO) 与 AIO 类 似 。 不 过 ， 它 是 对 通知 事件 进 


异步 非 阻 塞 IO 


异步 非 阻塞 |/O 模型 是 一 种 处 理 与 JO 重 引 进行 的 模型 。 读 请 求 会 立即 返回 ， 说 明 
read 请 求 已 经 成 功 发 起 了 。 在 后 台 完 成 读 操作 时 ， 应 用 程序 然后 会 执行 其 他 处 理 操 
作 。 当 read 的 响应 到 达 时 ， 就 会 产生 一 个 信号 或 执行 一 个 基于 线程 的 回调 函数 来 
完成 这 次 VO 处 理 过 程 。 






















aio_read () 
System call - kernel context switch 
initiate read I/O 
Other 
processing 
Read response 
Data movement from kernel space to user < 
space with signal or callback 
uo 
processing 
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在 一 个 进程 中 为 了 执行 多 个 VO 请 求 而 对 计算 操作 和 VO 处 理 进行 重 受 处 理 的 能 
利用 了 处 理 速度 与 MO 速度 之 间 的 差异 。 当 一 个 或 多 个 VO 请 求 挂 起 时 ，CPU 可 以 
执行 其 他 任务 ; 或 者 更 为 常见 的 是 ， 在 发 起 其 他 WO 的 同时 对 已 经 完成 的 VO 进行 
操作 。 


N 


` 


^ 


H 


结 


G 


慢 速 的 IO 设备 和 高 速 的 CPU 如 何 协作 是 门 学 问 。 但 这 里 并 不 是 说 同步 阻塞 IO 一 
定 不 好 ， 还 是 要 根据 场景 灵活 选择 。 


依照 作者 的 经 验 ， 同 步 |O 适用 于 时 间 可 控 ， 少 量 调用 的 场景 。 蚤 步 1O 适用 于 时 
间 不 可 控 《如 网 络 异 常 ) ， 大 量 调用 的 场景 。 


e https://www.ibm.com/developerworks/cn/linux/l-async/ 


libuv 选 型 


linux native aio 


Linux native aio 有 两 种 API， 一 种 是 libaio 提 供 的 API， 一 种 是 利用 系统 调用 封装 成 
的 AP|, 后 者 使 用 的 较 多 ， 因 为 不 需要 额外 的 库 且 简单 。 


e io setup: 是 用 来 设置 一 个 异步 请 求 的 上 下 文 ， 第 一 个 参数 是 请 求 事件 的 个 
数 ， 第 二 个 参数 唯一 标识 一 个 异步 请 求 。 

e io commit: 是 用 来 提交 一 个 异步 io 请 求 的 ， 在 提交 之 前 ， 需 要 设置 一 下 结构 
体 iocb 。 

e io getevents: 用 来 获取 完成 的 io 事件 ， 参 数 min nr 是 事件 个 数 的 的 最 小 
fir nr 是 事件 个 数 的 最 大 值 ， 如 果 没 有 足够 的 事件 发 生 ， 该 函数 会 阻塞 。 

e io destroy : 在 所 有 时 间 处 理 完 之 后 ， 调 用 此 函数 销毁 异步 io 请 求 。 


限制 


aio 只 能 使 用 于 常规 的 文件 DO， 不 能 使 用 于 socket， 管 道 等 ID， 但 对 于 libuv 88 fs 模 
块 使 用 需求 已 经 足够 了 。 


io_getevents 在 调用 之 后 会 阻塞 直到 有 足够 的 事件 发 生 ， 因 此 要 实现 趴 正 的 异步 
IO， 需 要 借助 eventfd 和 epoll 达 到 目的 。 
libuv native aio 实现 


笔者 实现 过 一 个 基于 libuv 的 native 
aio ， https://github.com/yjhjstz/libuv/commit/2748728635c4f74d6f27524fd36e680a 
88e4f04a 


从 理论 上 看 ， 在 libuv 中 实现 AlO， 


e 其 一 : 比 原来 的 libuv 实 现 少 了 一 次 write 系统 调用 ， 无 需 在 用 户 态 实现 线程 池 和 
工作 队列 . 
e 其 二 :native aio 实 现 可 以 实现 批量 回调 。 


我 们 看 下 性 能 对 比 数据 , 测试 脚本 是 简单 的 文件 读 取 : 


e Threadpool 模型 


jiangling@young:~/workspace/libuv$ wrk -t4 -c100 -d30s http: 
//127.0.0.1:30003/ 

Running 30s test @ http://127.0.0.1:30003/ 

4 threads and 100 connections 

Thread Stats Avg Stdev Max +/- Stdev 

Latency 16.77ms 1.14ms 31.68ms 86.68% 

Req/Sec 1.51k 162.66 2.08k 81.34% 

178925 requests in 30.00s, 104.26MB read 

Requests/sec: 5963.45 

Transfer/sec: 3.47MB 


e Native AIO 模型 


jiangling@young:~/workspace/libuv$ wrk -t4 -c100 -d30s http: 
//127.0.0.1:30003/ 

Running 30s test Q http://127.0.0.1:30003/ 

4 threads and 100 connections 

Thread Stats Avg Stdev Max +/- Stdev 

Latency 16.22ms 0.95ms 26.39ms 88.12% 

Req/Sec 1.57k 191.14 2.08k 68.5096 

185084 requests in 30.00s, 107.85MB read 

Requests/sec: 6169.28 

Transfer/sec: 3.59MB 


Max Latency |: 1696 > tps 7H 396 ° 


Threadpool 模型 


我 们 先 看 下 一 次 node.js read 的 调用 示意 图 : 


Node.js Read 





Linit 2. read 8 poll 


/ Y ES 


7 wait poll 
H uv work su TE al 
bmit -P 









Ally 
sq | 9 callback 
ei FESR = 4 = return Mr amas E EDT] 
\ uv__work 2 
\ queue 
\ 





代码 的 运行 经 历 了 以 下 步骤 : 
e 1 node, libuv 初始 化 ; 


e 2 node file.cc 中 的 Read 方 法 调用 libuv (fs.c) 的 uv fs read ， 封 装 请 
求 ; 


e 3 libuv 将 请 求 封装 成 uv_work, 提交 到 任务 队列 尾部 ， 触 发 信号 ; 

e 4 此 时 主线 程 的 read 调 用 返回 。 

e 5 线程 池 从 uv_work 队 列 中 取出 一 个 请 求 ， 开 始 执行 read IO ; 

e 6 向 主线 程 发 送信 号 表明 任务 完成 ， 等 待 执 行 read 调 用 后 的 其 它 操 作 。 
e 7 主线 程 epoll， 从 响应 队列 取 已 经 完成 的 请 求 ; 


e 8 主线 程 响 应 epoll 事 件 : 


e 9 EAA TI Rig callback $ žr e 


node.js 异步 IO 的 脉络 已 经 清晰 ， 我 们 清楚 的 看 到 这 样 的 一 个 Threadpool 模型 是 
全 平台 适用 的 。 


Linux 上 的 AIO AIO 在 2.5 版 本 的 内 核 中 首次 出 现 ， 现 在 已 经 是 2.6 版 本 的 产 
品 内 核 的 一 个 标准 特性 了 。 


并 且 由 于 Native AIO 是 在 linux 2.6 之 后 引入 ， 并 且 并 不 稳定 。 社 区 也 有 过 激烈 的 


讨论 : 


e https://github.com/libuv/libuv/issues/28 
e https://github.com/libuv/libuv/issues/461 


权衡 再 三 ， 笔 者 也 非常 支持 社区 采用 的 模型 ， 赋 子 用 户 更 多 的 选择 性 和 可 靠 性 。 


E. 


: 


KR 


用 户 态 的 线程 池 实现 给 了 用 户 更 大 的 灵活 性 和 选择 性 。 比 如 : 


e. 1. 线 程 池 的 个 数 ， 默 认 是 4 个 ， 用 户 可 以 通过 设置 环境 变量 
UV_THREADPOOL_SIZE 指定 。 
e 2. 和 耗 时 的 GETADDRINFO 复 用 线程 池 。 


需要 指出 的 是 ， 线 程 池 模型 还 有 改进 的 空间 : 


e static uv mutex t mutex; 全 局 锁 的 优化 ; 
e 支持 任务 优先 级 。 


文件 io 
上 一 章节 在 讲述 了 线程 池 的 模型 ， 读 者 对 一 次 异步 10 发 起 到 结束 有 了 一 个 大 致 的 
认识 。 


fs 模块 还 提供 了 同步 接口 ， 如 readFileSync ， 这 在 异步 模型 的 node.js 的 核心 
模块 中 是 极为 少见 的 。 


ih Rag 


e 异步 读 文件 接口 定义 : fs.readFile = function(path, options, 
callback_) 
e 同步 读 文件 接口 定义 : fs.readFileSync = function(path, options) 


See 提交 请 求 然后 等 待 回 调 ， 同 
步 则 阻塞 直到 返回 。 


让 我 们 来 看 看 第 三 个 参数 对 实现 的 影响 。 


var context = new ReadFileContext(callback, encoding); 
var req = new FSReqwrap(); 

req.context = context; 

req.oncomplete = readFileAfterOpen; 


异步 的 实现 中 会 创建 一 个 请 求 对 象 ， 并 且 绑 定 回调 和 上 下 文 环境 。 该 请 求 对 象 由 
C++ JE HH o 


FSReqWrap (node.js) 


FSReqWrap 是 由 src/node file.cc 实现 并 导出 ， 提 供给 javascript 使 用 。 


class FSReqwrap: public Reqwrap<uv_fs_t> { 
public: 
enum Ownership { COPY, MOVE }; 


inline static FSReqwrap* New(Environment* env, 
Local«Object» req, 
const char* syscall, 
const char* data = nullptr, 
Ownership ownership = COPY); 


inline void Dispose(); 


72 EU 
}; 


FSReqWrap 继承 ReqWrap, ReqWrap 是 个 模板 类 ，T req ; 存储 了 不 同类 型 的 
请 求 ， 在 这 里 模板 编译 后 ， uv_fs_t req ; ,req 存储 了 uv fs t 请求 对 象 。 这 
源 自 于 一 次 性 能 优化 的 提交 。 


fs: improve readFile performance 


This commit improves readFile performance by reducing number of 
closure allocations and using FSReqwrap directly. 


具体 了 解 , https://github.com/iojs/io.js/pull/718 ° 


在 js 层 发 起 请 求 后 ， 会 来 到 C++ 绑 定 层 ， 


Zdefine ASYNC DEST CALL(func, req, dest, ...) 
\ 
Environment* env = Environment: :GetCurrent(args); 
\ 
CHECK(req->IsObject()); 
\ 


FSReqwrap* req wrap = FSReqwrap: :New(env, req.As<Object>(), £f 
unc, dest); \ 
int err = uv_fs_ ## func(env->event_loop(), 
\ 
&req_wrap->req_, 


VA ARGS , 








N 
After); 
N 
req wrap-»Dispatched(); 
N 
if (err <0) { 
\ 
uv_fs_t* uv_req = &req_wrap->req_; 
\ 
uv_req->result = err; 
\ 
uv_req->path = nullptr; 
\ 
After(uv_req); 
\ 
req_wrap = nullptr; 
\ 
} else f{ 
\ 
args.GetReturnValue().Set(req_wrap->persistent()); 
\ 
} 
#define ASYNC_CALL(func, req, ...) 
\ 
ASYNC DEST CALL(func, req, nullptr, VA ARGS ) 
N 


这 里 才 会 生成 libuv 所 需 的 请 求 对 象 ， 对 于 读 请 求 调用 uv fs read 
指定 回调 函数 为 After 。 


uv_fs_t (libuv) 


看 一 下 libuv 的 异步 读 文件 代码 ，deps/uv/src/unix/fs.c : 


,提交 请 求 ， 


/* uv fs t is a subclass of uv req t. */ 
struct uv fs s ( 

UV REQ FIELDS 

uv fs type fs type; 

uv loop t* loop; 

uv. fs cb cb; 

ssize t result; 

void* ptr; 

const char ^ path; 

uv stat t statbuf; /* Stores the result of uv-fs-stat() and u 
VIS TSCA o 7. 

UV_FS_PRIVATE_FIELDS 
}; 
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#define INIT(subtype) 
\ 
do { 
\ 
req->type = UV FS; 


if (cb != NULL) 


\ 
uv__req_init(loop, req, UV_FS); 

\ 

req->fs_type = UV_FS_ ## subtype; 
\ 

req->result = 0; 
\ 

req->ptr = NULL; 
\ 

req->loop = loop; 
\ 

req->path = NULL; 
\ 

req->new_path = NULL; 
\ 

req->cb = cb; 
\ 

} 
\ 
while (0) 


可 以 看 到 一 次 异步 文件 读 操作 在 libuv 层 被 封装 到 一 个 uv_fs_t 的 结构 体 ，req->cb 是 
来 自 上 层 的 回调 函数 (node C++ 层 : src/node file.cc 的 After 函数 ) 。 


异步 io 请 求 最 后 调用 uv _work_submit， 把 异步 io 请 求 提 交 给 线程 池 。 这 里 有 两 个 函 
He: 


e Uv fs work : 这 个 是 文件 io 的 处 理 函 数 ， 可 以 看 到 当 cb 为 NULL 的 时 候 ， 即 
非 异 步 模式 ， uv fs work 在 当前 线程 (事件 循环 所 在 线程 ) 直接 被 调用 。 
如 果 cb != NULL， 即 文件 io 为 异步 模式 ， 此 时 
把 uv fs work 和 uv fs done 提交 给 线程 池 。 


e uv fs done : &* EE x trio SuSE. uv_fs done t 
会 回调 上 层 C++ 模 块 的 cb 函数 ( 即 req->cb) 。 


需要 特别 注意 的 是 : 此 时 io 操作 的 主体 uv_ fs work 部 数 是 在 线程 池 里 执行 的 。 
但 是 uv fs done 必须 在 事件 循环 的 线程 里 被 回调 ， 因 为 这 个 函数 最 终 会 回调 到 
用 户 js 代码 的 回调 函数 ， 而 js 代码 里 的 所 有 代码 必须 在 同 个 线程 里 面 。 


线程 池 的 请 求 对 象 一 struct uv__work 


先 看 下 uv work 的 定义 : 


struct uv__work { 
void (*work)(struct uv work *w); 
void (*done)(struct uv work *w, int status); 
struct uv loop s* loop; 
void* wq[2]; 
H 


再 看 看 uv work submit 做 了 什么 : 


static void post(QUEUE* q) { 
uv mutex lock(&mutex); 
QUEUE INSERT TAIL(&wq, q); 
if (idle threads » 0) 
uv cond signal(&cond); 
uv mutex unlock(&mutex); 


void uv work submit(uv loop t* loop, 
struct uv work* w, 
void (*work)(struct uv  work* w), 
void (*done)(struct uv work* w, int status 


)) { 
uv_once(&once, init_once); 
w->loop = loop; 
w->work = work; 
w->done = done; 
post (&w->wq); 


uv. work submit 把 传 进来 的 uv__fs_work ^ uv fs done 封装 
到 uv. work 结构 体 里 面 ， 这 个 结构 体 表 示 一 个 线程 操作 的 请 求 。 通 过 post 把 请 求 
提交 给 线程 池 。 


A Fl post & 4 €. d) 4 QUEUE INSERT. TAIL * 427% uv. work 对 象 加 进 wq 链表 
里 面 。Wg 是 一 个 全 局 静态 变量 。 也 就 是 说 ， 进 程 空 间 里 的 所 有 线程 共用 同一 个 wd 
链表 。 


A 2 post% #34 st uv_cond_signal M = 4) & fF zt X — —cond X ži F > HE 
uv_cond_wait 挂 起 等 待 的 工作 线程 当中 的 某 个 线程 被 激活 。 


worker 线 程 往 下 执行 ， 从 wq 取 出 WwW， 执行 W->work()。 
工作 线程 完成 任务 后 ， 调 用 uv_async_send 通 知 主线 程 统一 的 io 观察 者 ， 执 行 


callback » 


回调 


Cx 


总 结 


通过 对 各 层 ? 

各 层 请 求 

ABER HG 寺 象 的 梳理 ， 也 详 

JUTR o 也 详细 梳理 出 了 一 次 
求 的 脉络 , 使 读 


FAQ 
同步 require() 


/^/ Native extension for .js 
Module. extensions['.js'] = function(module, filename) ( 
var content - fs.readFileSync(filename, 'utf8'); 
module. compile(internalModule.stripBOM(content), filename); 


e 


大 家 可 能 都 有 疑问 : 为 什么 会 选择 使 用 同步 而 不 用 异步 实现 呢 ? 
之 所 以 同步 是 Node.js 所 遵循 的 CommonJS 的 模块 规范 要 求 的 , 具体 来 说 


在 当年 ， CommonJS 社区 对 此 就 有 很 多 争议 ， 导 致 了 坚持 异步 的 AMD 从 
CommonJS 中 分 裂 出 来 。 


CommonJS 模块 是 同步 加 载 和 同步 执行 ，AMD 模块 是 异步 加 载 和 异步 执行 ， 

CMD (Sea.js) 模块 是 异步 加 载 和 同步 执行 。ES6 的 模块 体系 最 后 选择 的 是 异步 加 
载 和 同步 执行 。 也 就 是 Sea.js 的 行为 是 最 接近 ESO 模块 的 。 不 过 Sea.js 这 样 做 是 
需要 付出 代价 的 一 “需要 扫描 代码 提取 依赖 ， 所 以 它 不 像 CommonJS/AMD 是 纯 运 
行 时 的 模块 系统 。 


注意 Sea.js 是 2010 年 之 后 开发 的 ， 提 出 CMD 更 晚 。Node.js 当年 (2009 年 ) 只 
有 CommonJS 和 AMD 两 个 选择 。 就 算 当 时 已 经 有 CMD 的 等 价 提案 ， 从 性 能 角度 
出 发 ，Node.js 不 太 可 能 选择 需要 静态 分 析 开 销 的 类 CMD 方案 。 考 虑 到 Node.js 
的 模块 是 来 自 于 本 地 文件 系统 ， 最 后 Node.js 选择 了 看 上 去 更 简单 的 CommonJS 
模块 规范 ， 直 到 今天 。 


e. 从 模块 规范 的 角度 来 看 ， 依 赖 的 同步 获取 是 几乎 所 有 模块 机 制 的 首选 ， 是 符合 
由 无 数 的 语言 葛 定 的 开发 者 的 直觉 。 


e. 从 模块 本 身 的 特性 来 说 的 ， 结 论 就 是 使 用 异步 的 require 收 益 很 小 ， 同 时 对 开发 
者 并 不 友好 。 


fs.realpath 4 4 


如 今 的 realpath 的 实现 变 得 非常 简洁 , 直接 调用 系统 调用 realpath。 


fs.realpath = function realpath(path, options, callback) { 
if (!options) { 
options = {}; 
} else if (typeof options === 'function') { 
callback = options; 
options = {}; 


} else if (typeof options === 'string') { 
options = {encoding: options}; 
} else if (typeof options !== 'object') { 


throw new TypeError('"options" must be a string or an object' 
); 
} 
callback = makeCallback(callback); 


if (!nullCheck(path, callback) ) 
return; 
var req = new FSReqwrap(); 
req.oncomplete = callback; 
binding.realpath(pathModule. makeLong(path), options.encoding, 


req); 
return; 
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大 家 可 能 又 有 疑问 了 ， 原 本 提升 性 能 的 路 径 缓存 去 哪里 了 ， 不 是 说 缓存 都 是 提升 性 
能 的 重要 手段 吗 ? 


社区 的 修改 可 以 在 https://github.com/nodejs/node/pull/3594 看 到 ， 
fs: optimize realpath using uv_fs_realpath() 


Remove realpath() and realpathSync() cache. Use the native uv_fs_realpath() 
which is faster then the JS implementation by a few orders of magnitude 


去 掉 了 缓存 反而 提升 了 性 能 ， 作 者 的 commit 提交 也 写 的 非常 清楚 : native 
uv fs realpath 实现 要 大 大 优 于 js 层 的 实现 ， 但 并 没有 说 具体 原因 。 


前 面 我 已 经 提 到 过 了 文件 系统 的 基本 原理 和 大 致 实现 ，VFS 中 引入 了 高 速 磁盘 缓存 
的 机 制 ， 这 属于 一 种 软件 机 制 ， 人 允许 内 核 将 原本 存在 磁盘 上 的 某 些 信息 保存 在 RAM 
中 ， 以 便 对 这 些 数据 的 进一步 访问 能 快速 进行 ， 而 不 必 慢 速 访问 磁盘 本 身 。 高 速 磁 
盘 缓 存 可 大 致 分 为 以 下 三 种 : 


e 目录 项 高 速 缓存 一 一 主要 存放 的 是 描述 文件 系统 路 径 名 的 目录 项 对 象 

e 索引 节点 高 速 缓存 一 一 主要 存放 的 是 描述 磁盘 索引 节点 的 索引 节点 对 象 

e 页 高 速 缓存 一 主要 存放 的 是 完整 的 数据 页 对 象 ， 每 个 页 所 包含 的 数据 一 定 属 
于 某 个 文件 ， 同 时 ， 所 有 的 文件 读 写 操作 都 依赖 于 页 高 速 缓存 。 其 是 LinuXx 内 核 
所 使 用 的 主要 磁盘 高 速 缓 存 。 


readpath 的 native 实现 的 高 性 能 得 益 于 目录 项 高 速 缓存 ， 有 自身 的 淘汰 机 制 ， 
保持 自身 的 高 效 的 访问 。 其 实 缓存 机 制 依然 存在 ， 只 是 下 移 到 VFS 文 件 系统 层面 


nodejs 的 fs 模块 并 没有 提供 一 个 copy 的 方法 ， 但 我 们 可 以 很 容易 的 实现 一 个 ， 上 比 
ta: 


var source = fs.readFileSync('/path/to/source', (encoding: 'utf8' 


3); 
fs.writeFileSync('/path/to/dest', source); 


[pM 3186] 


这 种 方式 是 把 文件 内 容 全 部 读 入 内 存 ， 然 后 再 写 入 文件 ， 对 于 小 型 的 文本 文件 ， 这 
没有 多 大 问题 。 但 是 对 于 体积 较 大 的 二 进 制 文件 ， 比 如 音频 、 视 频 文 件 ， 动 轰 几 个 
GB 大 小 ， 如 果 使 用 这 种 方法 ， 很 容易 使 内 存 " 爆 仓 "”。 具 体 的 说 ， 对 于 32 位 系统 是 
1GB，64 位 是 2GB 。 


理想 的 方法 应 该 是 读 一 部 分 ， 写 一 部 分 ， 不 管 文件 有 多 大 ， 只 要 时 间 允 许 ， 总 会 处 
理 完 成 ， 这 里 就 需要 用 到 流 的 概念 。 


上 面 的 文件 复制 可 以 简单 实现 


// piped #74 A f data, end 等 事件 
fs.createReadStream( '/path/to/source').pipe(fs.createwriteStream( 


' /path/to/dest')); 
一 一 一 一 了 


源 文件 通过 管道 自动 流向 了 目标 文件 。 


E 


4 


ÈK 


e 不 要 迷信 异步 ， 使 用 时 评估 同步 和 异步 的 开销 ， 包 括 复杂 度 和 性 能 。 

e 缓存 策略 需要 综合 考虑 ， 这 离 不 开 对 系统 的 了 解 (更 多 的 涉 猫 )， 重 复 缓存 只 会 
带 来 没 必 要 的 开销 。 

© 大 文件 的 操作 ， 使 用 流 式 操作 。 


参考 


e https://www.zhihu.com/question/38041375 
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子 进程 (child. process) 


child process 是 Node 的 一 个 十 分 重要 的 模块 ， 通 过 它 可 以 实现 创建 多 进程 ， 以 利 
用 单机 的 多 核 计 算 资 源 。 虽 然 ， Node se oe tee ， 但 是 有 了 
child_process 模 块 ， 可 以 在 程序 中 直接 创建 子 进程 ， 并 使 用 主 进程 和 子 进程 之 问 实 
现 通信 。 


进程 通信 


进程 各 自 有 不 同 的 用 户 地址 空间 ， 任 何 一 个 进程 的 全 局 变量 在 另 ae 
HE > 所 以 进程 之 问 要 交换 数据 必须 通过 内 核 ， 在 内 核 中 开辟 一 块 缓冲 区 ， 进 
1 把 数据 从 用 户 空 间 找到 内 核 缓冲 区 ， 进 程 2 再 从 内 核 缓 冲 区 把 数据 读 走 ， ie 
的 这 种 机 制 称 为 进程 间 通 信 。 


类 型 无 连接 TE 流 控 制 优先 级 
普通 PIPE N Y Y N 
命名 PIPE N Y Y N 
消息 队列 N Y Y N 
言 号 量 N Y Y Y 
共享 存储 N Y Y Y 
UNIX 流 SOCKET N Y Y N 
UNIX 数 据 包 SOCKET Y Y N N 


e 注 : 无 连接 : 指 无 需 调用 茶 种 形式 的 open, 就 有 发 送 消 息 的 能 力 流 控 制 : 


hs 中 实现 IPC. 通信 的 是 管道 技术 ， 但 只 是 抽象 的 称呼 ， 具 体 细节 实现 由 libuv 提 
> Æ windows 下 由 命名 管道 (named pipe) 实现 ，*nix 系统 则 采用 Unix 
Domain Socket 实 现 。 也 就 是 上 表 中 的 最 后 第 二 个 。 


Socket API 原 本 是 为 网 络 通讯 设计 的 ， 但 后 来 在 socket 的 框架 上 发 展 出 一 种 IPC 机 
制 ， 就 是 UNIX Domain Socket。 虽 然 网 络 socket 也 可 用 于 同一 人 台 主 机 的 进程 间 通 讯 

(通过 |loopback 地 址 127.0.0.1) ， 但 是 UNIX Domain Socket 用 于 IPC 更 有 效率 : 不 
需要 经 过 网 络 协 议 栈 ， 不 需要 打包 拆 包 、 计 算 校 验 和 、 维 护 序号 和 应 答 等 ， 只 是 将 
应 用 层 数据 从 一 个 进程 拷贝 到 另 一 个 进程 。 


Depending on the platform, unix domain sockets can achieve around 50% 
more throughput than the TCP/IP loopback (on Linux for instance). 


这 是 因为 ，IPC 机 制 本 质 上 是 可 靠 的 通讯 ， 而 网 络 协议 是 为 不 可 靠 的 通讯 设计 的 。 
UNIX Domain Socket 也 提供 面向 流 和 面向 数据 包 两 种 API 接 口 ， 类 似 于 TCP 和 
UDP， 但 是 面向 消息 的 UNIX Domain Socket 也 是 可 靠 的 ， 消 息 既 不 会 丢失 也 不 会 
顺序 错乱 。 


创建 子 进 程 


e Spawn() 启 动 一 个 子 进 程 来 执行 命 ve 

e eXec() 启 动 一 个 子 进程 来 执行 命令 , 带 回调 参数 获知 子 进 程 的 情况 , 可 指定 进程 
运行 的 超时 时 间 

e eXecFile() 启 动 一 个 子 进程 来 执行 一 个 可 执行 文件 , 可 ey 的 超时 时 间 

e fork() 与 spawn() 类 似 , 不 同 在 于 它 创 建 的 node 子 进程 只 需 指 定 要 执行 的 js 文件 
模块 即 可 


// don't call this example code 

var cp = require('child_process'); 

cp.spawn('node', ['work.js']); 

cp.exec('node work.js', function(err, stdout, stderr) { 
// some code 

3); 

cp.execFile('work.js', function(err, stdout, stderr) { 
// some code 


3); 
cp.fork('./work.js'); 


exec 方 法 会 直接 调用 bash (/bin/sh 程 序 ) 来 解释 命令 ， 所 以 如 果 有 用 户 输入 的 参 
数 ，exec 方 法 是 不 安全 的 。 


var path = ";user input"; 
child_process.exec('ls -1 ' + path, function (err, data) { 
console.log(data); 


3); 


上 面 代码 表示 ， 在 bash 环 境 下 ， ls -1; user input 会 直接 运行 。 如 果 用 户 输 
入 恶意 代码 ， 将 会 带 来 安全 风险 。 因 此 ， 在 有 用 户 输入 的 情况 下 ， 最 好 不 使 用 exec 
方法 ， 而 是 使 用 execFile 方 法 。 


建立 IPC 通道 


2^ 


义 
子 


进程 在 创建 子 进程 前 创建 I|PC 通 道 并 监听 , S553 *XNODE CHANNEL FD 告诉 
进程 的 |PC 的 文件 描述 符 。 
startup.processChannel = function() { 
// If we were spawned with env NODE_CHANNEL_FD then load that 
up and 
// start parsing data from that stream. 
if (process.env.NODE_CHANNEL_FD) { 
var fd = parseint(process.env.NODE CHANNEL FD, 10); 
assert(fd >= 0); 


// Make sure it's not accidentally inherited by child proces 
ses. 
delete process.env.NODE_CHANNEL_FD; 


var cp = NativeModule.require('child process'); 


// Load tcp_wrap to avoid situation where we might immediate 
ly receive 

// a message. 

// FIXME is this really necessary? 

process.binding('tcp wrap'); 


cp.. forkchild(fd); 
assert(process.send); 


子 进程 在 局 动 的 过 程 中 连接 IPC 的 FD 


exports. forkChild = function(fd) { 
// set process.send() 
var p = new Pipe(true); 
p.open(fd); 
p.unref(); 
const control - setupChannel(process, p); 
process.on('newListener', function(name) ( 


if (name --- 'message' || name --- 'disconnect') control.ref 
0; 
+); 
process.on('removeListener', function(name) { 
if (name === 'message' || name === 'disconnect') control.unr 
ef(); 
3); 


}; 
建立 连接 后 父子 进程 就 可 以 自由 的 ， 全 双 工 的 通信 了 。 


句柄 传递 


ChildProcess 类 的 实例 ， 通 过 调用 ChildProcess#send(message[, sendHandle[, 
options]][, callback]) 方法 ， 我 们 可 以 实现 与 子 进程 的 通信 ， 其 中 的 sendHandle 参 
数 支持 传递 net.Server ，net.Socket 等 多 种 句柄 ， 使 用 它 ， 我 们 可 以 很 轻松 的 实现 
在 进程 间 转 发 TCP socket 。 


send 方 法 可 以 发 送 的 对 象 包括 如 下 集中 : 


e net.Socket 对 象 :TCP 套 接 字 

e net.Server*1 $: TCPJR 4- 25 

e net.Native: C++ 层面 的 TCP 套 接 字 和 IPC 管 道 
e dgram.Socket: UDP 套 接 字 

e dgram.Native: C++ 层面 的 UDP 套 接 字 


传递 的 过 程 : 
主 进程 : 


o 传递 消息 和 和 句柄。 
e. 将 消息 包装 成 内 部 消息 ， 使 用 JSON.stringify 序列 化 为 字符 串 。 


对 应 的 handleConversion[message.type].send 7% Æ 7| 1b 4] 48 » 


e 通过 
序列 化 后 的 字符 串 和 句柄 发 入 IPC channel 。 


if 
e 将 
子 进 程 


e 使 用 JSON.parse 反 序 列 化 消息 字符 串 为 消息 对 象 。 

e 触发 内 部 消息 事件 (internalMessage) 监听 器 。 

e 将 传递 来 的 句柄 使 用 handleConversion[message.type].got 方法 反 序 列 化 为 
JavaScript 对 象 。 

带 着 消息 对 象 中 的 具体 消息 内 容 和 反 序 列 化 后 的 句柄 对 象 ， 触 发 用 户 级 别 事 
件 。 


E 


ÈK 
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很 多 应 用 比如 redis 提 供 了 本 地 访问 的 接口 ， 进 程 通信 使 用 的 是 socket 的 回环 地 
址 。 当 然 它 是 通用 性 的 考虑 ， 和 否则 要 区 分 本 地 环境 还 是 网 络 环境 ， 如 果 不 考 虑 这 
点 ， 其 实 可 以 用 unix domain socket 代替 ， 以 获取 更 好 的 相互 性 能 。 


Here you have the results on a single CPU 3.3GHz Linux machine : 


类 型 TCP UDS PIPE 
latency 6us 2us 2us 
throughput 253702 msg/s 1733874 msg/s 1682796 msg/s 


e UDS: UNIX Domain Socket 


[1]. https://github.com/rigtorp/ipc-bench 
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众所周知 ，Node.js 是 单线 程 的 ， 一 个 单独 的 Node.js 进 程 无 法 充分 利用 多 核 。 
Node.js 从 v0.8 开 始 ， 新 增 cluster 模 块 ， 让 Node.js 开 发 Web 服 务 时 ， 很 方便 的 做 到 
分 利用 多 核 机 器 。 


充分 利用 多 核 的 思路 是 : 使 用 多 个 进程 处 理 业务 。cluster 模 块 封装 了 创建 子 进程 、 
进程 间 通 信 、 服 务 负载 均衡 。 有 两 类 进程 ，master 进 程 和 worker 进 程 ，master 进 程 
是 主 控 进程 ， 它 负责 启动 Worker 进 程 ，worker 是 子 进 程 、 干 活 的 进程 。 


APIA 


最 初 的 Node.js 多 进程 模型 就 是 这 样 实现 的 ，master #426) socket > HEE X 
个 地 址 以 及 端口 后 ， 自 身 不 调用 listen 来 监听 连接 以 及 accept 连接 ， 而 是 将 该 
socket 的 fd 传递 到 fork 出 来 的 worker 342 > worker 接收 到 fd 后 再 调用 listen ， 
accept 新 的 连接 。 但 实际 一 个 新 到 来 的 连接 最 终 只 能 被 茶 一 个 worker 进程 accpet 
再 做 处 理 ， 至 于 是 哪个 worker 能 够 a 到 ， 开 发 者 完全 无 法 预知 以 及 干预 。 这 
势必 就 导致 了 当 一 个 新 连接 到 来 时 ， 多 个 worker 进程 会 产生 竞争 ， 最 终 由 胜出 的 
worker 获取 连接 。 


相信 到 这 里 大 家 也 应 该 知道 这 种 多 进程 模型 比较 明显 的 问题 了 


e 多 个 进程 之 间 会 竞争 accpet 一 个 连接 ， 产 生 惊 群 现象 ， 效 率 比 较 低 。 
e Cees 连接 由 哪个 进程 来 处 理 ， 必 然 导 致 各 worker 进程 之 间 
的 负载 非常 不 均衡 。 


round-robin (轮训 ) 


上 面 的 多 进程 模型 存在 诸多 问题 ， 于 是 就 出 现 了 基于 round-robin 的 另 一 种 模型 。 
要 思路 是 master 进 程 创 建 socket， 绑 定好 地 址 以 及 端口 后 再 进行 监听 。 该 人 
fd 不 传递 到 各 个 worker 进 程 ， 当 master 进 程 获取 到 新 的 连接 时 ， 再 决定 将 accept 到 
的 客户 端 Socket fd 传递 给 指定 的 worker 处 理 。 我 这 里 使 用 了 指定 , 所 以 如 何 传递 以 
及 传递 给 哪个 worker 完 全 是 可 控 的 ，round-robin 只 是 其 中 的 某 种 算法 而 已 ， 当 然 可 
以 换 成 其 他 的 。 


Master 是 如 何 将 接收 的 请 求 传递 至 worker 中 进行 处 理 然 后 响应 的 ? 


Cluster 模块 通过 监听 该 内 部 TCP 服 务 器 的 connection 事 件 ， 在 监听 器 有 函数 里 ， 有 和 负 
载 均 衡 地 挑选 出 一 个 worker， 向 其 发 送 newconn 内 部 消息 (消息 体 对 象 中 包含 cmd: 
'INODE_CLUSTER' 属 性 ) 以 及 一 个 客户 端 句 柄 (BP connection # £F Ab 32 BAY 4. — 
个 参数 ) ， 相 关 代 码 如 下 : 


// lib/cluster.js 
人 


function RoundRobinHandle(key, address, port, addressType, backl 


og, fd) ( 
YN 
this.server = net.createServer(assert.fail); 
EL, 


var self = this; 
this.server.once('listening', function() { 
df APR NC 
self.handle.onconnection - self.distribute.bind(self); 


+); 


RoundRobinHandle.prototype.distribute = function(err, handle) { 
this.handles.push(handle); 
var worker - this.free.shift(); 
if (worker) this.handoff(worker); 


}; 


RoundRobinHandle.prototype.handoff = function(worker) { 
Le. 
var message = { act: 'newconn', key: this.key }; 
var self = this; 
sendHelper(worker.process, message, handle, function(reply) { 
// 
3); 
3 


Worker3£ 42 4 4k 2 J newconnA RI BS » ARIES KA 6] d > TAA E RR 83 3E 
FF HAG I FIRED: 


// lib/cluster.js 
VE 


// 该 方法 会 在 Node. js 初始 化 时 由 src/node.js 调用 
cluster. setupWorker = function() { 


yu aute 
process.on('internalMessage', internal(worker, onmessage)); 


Yi es ne 
function onmessage(message, handle) { 
if (message.act === 'newconn' ) 
onconnection(message, handle); 
EE: 
} 
J; 
function onconnection(message, handle) { 
AR 
var accepted = server !== undefined; 
// 


if (accepted) server.onconnection(0, handle); 


至 此 ， 也 总 结 一 下 : 
e 所 有 请 求 先 同一 经 过 内 部 TCP 服 务 器 。 
e 在 内 部 TCP 服 务 器 的 请 求 处 理 逻 辑 中 ， 有 负载 均衡 地 挑选 出 一 个 worker 进 程 ， 
将 其 发 送 一 个 hewconn 内 部 消息 ， 随 消息 发 送 客 户 端 句柄 。 
e Worker 进 程 接 收 到 此 内 部 消息 ， 根 据 客户 端 句 柄 创建 net.Socket 实 例 ， 执 行 具 
体 业 务 逻 辑 ， 返 回 。 


listen 端口 复 用 


为 了 得 到 这 个 问题 的 解答 ， 我 们 先 从 worker 进 程 的 初始 化 看 起 ，master 进 程 在 fork 
工作 进程 时 ， 会 为 其 附 上 环境 变量 NODE_ UNIQUE ID， 是 一 个 从 零 开 始 的 递增 


function createWorkerProcess(id, env) { 

workerEnv.NODE UNIQUE ID = '' + id; 

return fork(cluster.settings.exec, cluster.settings.args, { 
env: workerEnv, 
silent: cluster.settings.silent, 
execArgv: execArgv, 
gid: cluster.settings.gid, 
uid: cluster.settings.uid 


+); 


随后 Node. PERERA ， 会 根据 该 环境 变量 ， 来 判断 该 进程 是 否 为 cluster 模 块 fork 
出 的 工作 进程 ， 若 是 ， 则 执行 workerlnit() 函 数 来 初始 化 环境 ， 否 则 执行 masterlnit() 
Br o 


在 workerlnit() 函 数 中 ， 定 义 了 cluster_ getServer 方 法 ， 这 个 方法 在 任何 net.Server 
实例 的 listen 方 法 中 ， 会 被 调用 : 


// lib/net.js 


if ff 
function listen(self, address, port, addressType, backlog, fd, e 
xclusive) { 


exclusive = !!exclusive; 


if (!cluster) cluster = require('cluster'); 


if (cluster.isMaster || exclusive) { 
self._listen2(address, port, addressType, backlog, fd); 
return; 

} 


cluster. getServer(self, { 
address: address, 
port: port, 
addressType: addressType, 
fd: fd, 
flags: 0 

j, cb); 


function cb(err, handle) ( 
// 


self._handle = handle; 
self._listen2(address, port, addressType, backlog, fd); 


你 可 能 已 经 猜 到 ， 答 案 就 在 这 个 cluster. getServer 函 数 的 代码 中 。 它 主要 干 了 两 件 


e 向 master 进 程 注册 该 Worker， 若 master 进 程 是 第 一 次 接收 到 监听 此 端口 /描述 符 
下 的 worker， 则 起 一 个 内 部 TCP 服 务 器 ， 来 承担 监听 该 端口 /描述 符 的 职责 ， 随 
后 在 master 中 记录 下 该 Worker ° 

e Hack 掉 worker 进 程 中 的 net.Server 实 例 的 listen 方 法 里 监听 端口 /描述 符 的 部 
分 ， 使 其 不 再 承担 该 职责 。 


对 于 第 一 件 事 ， 由 于 master 在 接收 ， 传 递 请 求 给 worker 时 ， 会 符合 一 定 的 负载 均衡 
规则 (在 非 Windows 平 台 下 默认 为 轮 询 ) » 3x 9837 HE 34 X 4E RoundRobinHandle 
类 中 。 故 ， 初 始 化 内 部 TCP 服 务 器 等 操作 也 在 此 处 : 


// lib/cluster.js 
77. 


function RoundRobinHandle(key, address, port, addressType, backl 
ogr (d) 

72 M 

this.handles - []; 

this.handle - null; 

this.server - net.createServer(assert.fail); 


if (fd >= 0) 
this.server.listen(( fd: fd }); 
else if (port »- 0) 
this.server.listen(port, address); 
else 
this.server.listen(address); // UNIX socket path. 


ud 


对 于 第 二 件 事 ， 由 于 net.Server 实 例 的 listen 方 法 ， 最 终 会 调用 自身 _ handle 属 性 下 
listen 方 法 来 完成 监听 动作 ， 故 在 代码 中 修改 之 : 


// lib/cluster.js 
A 


function rr(message, cb) { 
M 
// 此 处 的 1isten 有 也 数 不 再 做 任何 监听 动作 
function listen(backlog) { 
returnior 


function close() { 
72 2 


j 
function ref() {} 


function unref() {} 


var handle - ( 
close: close, 
listen: listen, 
ref: ref, 
unref: unref, 
3 
// 
handles[key] = handle; 
cb(0, handle); // 传 入 这 个 cb 中 的 handle 将 会 被 赋值 给 net.Server 实 例 中 
的 _handle 属 性 
} 


// lib/net.js 
Lf ee 
function listen(self, address, port, addressType, backlog, fd, e 
xclusive) { 
"PA 


if (cluster.isMaster || exclusive) ( 
self. listen2(address, port, addressType, backlog, fd); 
return; // 仅 在 worker 环 境 下 改变 


cluster._getServer(self, { 
address: address, 
port: port, 
addressType: addressType, 
fd: fd, 
flags: 0 

j, cb); 


function cb(err, handle) ( 
i MN e 
self. handle - handle; 
Lie 


As 


至 此 ， 总 


epee 


e 端口 仅 由 master 进 程 中 的 内 部 TCP 服 务 器 监听 了 一 次 。 
e 不 会 出 现 端口 被 重复 监听 报错 ， 是 由 于 ，worker 进 程 中 ， 最 后 执行 监听 端口 操 
作 的 方法 ， 已 被 cluster 模 块 主动 履 盖 。 
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e 判断 对 象 是 否 不 存在 使 用 ifllobj), 此 时 如 果 obj 为 " 或 0 或 false, 也 会 误 认 为 不 存 
在 ; 正确 的 写法 也 是 纷繁 复杂 : 见 参考 


e 字符 串 连 接 , 一 般 会 自动 转 成 string, 但 不 巧 如 果 头 两 个 正好 可 以 转 数 字 , 那 么 它 


会 按 数 字 相 加 .如 : 


var a = 1,b = 'b',c = 10; 
var sl=a+t+ctb; 

var s2 —- ** + a + ¢ + b; 

console.log(s1); //"11b" 

console.log(s2); //"110b" 


保险 起 见 : 注意 使 用 Number 转换 。 


this 指 针 


e 一 般 调用 时 ，this 是 窗口 的 全 局 对 象 ， 比 如 在 浏览 器 中 就 是 window 对 象 
e call 和 .apply 方法 调用 时 可 以 改变 this 的 值 
e 在 prototype 函数 内 部 ，this 指 向 该 类 创造 的 实例 对 象 

排序 sort 


JavaScript 的 Array 的 sort() 方 法 就 是 用 于 排序 的 ， 但 是 排序 结果 可 能 让 你 大 吃 一 惊 : 


Or A y haare /7 (i, 16, 2, 26) 


这 是 因为 Array 的 sort() 方 法 默认 把 所 有 元 素 先 转换 为 String 再 排序 ， 结 果 '10' 排 在 
了 '2' 的 前 面 ， 因 为 字符 '1' 比 字符 '2' 的 ASCII 码 小 。 


如 果 不 知 道 sort() 方 法 的 默认 排序 规则 ， 直 接 对 数字 排序 ， 绝 对 栽 进 坑 里 ! 幸运 的 
是 ，Sort() 方 法 也 是 一 个 高 阶 函 数 ， 它 还 可 以 接收 一 个 比较 函数 来 实现 自 定义 的 排 
序 。 


异步 处 理 


e 错误 处 理 忘 记 return. 
e 一 个 异步 方法 中 处 理 不 当 有 可 能 会 多 次 触发 callback, 又 或 者 是 一 个 callback 都 
没 触发 ,需要 仔细 处 理 逻 辑 流 程 . 


科学 计算 


e v8 引擎 中 js 的 Number 对 象 的 内 部 实现 只 有 两 种 ， 一 是 smi (也 就 是 小 整 
dk) ， 二 是 double ° Node.js 根本 没有 float! 如 果 使 用 了 float, 注意 存在 精 
度 的 缺失 。 

e 位 运算 ，javascript 只 支持 32 位 ， 超 过 32 位 的 ， 需 要 用 大 数 模拟 。 
https://github.com/justmoon/node-bignum 


参考 


e http://www.ruanyifeng.com/blog/2011/05/how_to_judge_the_existence_of_a_ 
global object in javascript.html 
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Node.js 在 物 联网 
1、Build Node.js for Android 
Linux 构 建 环境 


jiangling@young:~/node/deps/npm$ uname -a 
Linux young 3.11.0-15-generic #25~precise1-Ubuntu SMP Thu Jan 30 
17:39:31 UTC 2014 x86 64 x86 64 x86 64 GNU/Linux 


3242 Android NDK 


drwxr-xr-x 10 jiangling jiangling 4096 3H 1 2014 androi 
d-ndk-r9d 


clone node.js 


git clone https://github.com/joyent/node.git 


android-configure patch 


jiangling@young:~/node$ git diff 

diff --git a/android-configure b/android-configure 

index 7acb7f3..aaeObf1 100755 

--- a/android-configure 

+++ b/android-configure 

@@ -3,7 +3,7 @@ 

export TOOLCHAIN=$PWD/android-toolchain 

mkdir -p $TOOLCHAIN 

$1/build/tools/make-standalone-toolchain.sh \ 

- --toolchain-arm-linux-androideabi-4.7 \ 

十 --toolchain-arm-linux-androideabi-4.8 \ 
--arch=arm \ 
--install-dir=$TOOLCHAIN \ 
--platform=android-9 


否则 会 出 现 arm-linux-androideabi-gcc not found 的 错误 。 
configure && make 


source ./android-configure ~/android-ndk-r9b 
mv python2.7 oldpython2.7 

ln -s /usr/bin/python2.7 python2.7 

cd ~/node 

make 


node bin A 


jiangling@young:~/node$ file out/Release/node 
out/Release/node: ELF 32-bit LSB executable, ARM, version 1 (SYS 
V), dynamically linked (uses shared libs), not stripped 


rootQandroid:/data/local/tmp # ls -al node 


ls -al node 
-rwX------ shell shell 12158228 2014-11-24 17:01 node 


配置 without-ssl 后 大 小 


jiangling@young:~/node$ 1s -al out/Release/node 
-rwxrwxr-x 1 jiangling jiangling 9804644 11H 26 13:55 out/Relea 
se/node 


2 ^ Run Node.js on Android 


这 边 我 选择 了 ROOT 过 的 小 米 M1 手 机 ， 安装 了 ”瑞士 军刀 “busybox, 以 便 查 看 系统 


root@android:/data/local/tmp # ./busybox uname -a 

./busybox uname -a 

Linux localhost 3.4.0-perf-giccebb5-00146-gd6845ec #1 SMP PREEMP 
T Mon Nov 4 20:10:00 CST 2013 armv71 GNU/Linux 


用 ADB 将 node , test.js (经 典 的 hello world) push 到 M1 上 : 


adb push d:\node /data/local/tmp 
adb push d:\test.js /data/local/tmp 
adb shell chmod 755 /data/local/tmp/node 
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LA y (10:38 


sion denied 
7 busybox 


< 
root@android:/data/local/tmp # ./bus 
ybox uname -a 
Linux localhost 3.4.0-perf-g1ccebb5- 
00146-gd6845ec #1 SMP PREEMPT Mon No 
v 4 20:10:00 CST 2013 armv71 GNU/Lin 


« 
Server running at http://127.0.0.1:9 
000/ , pid-» 8543 
il 


BOBBUDBHBÓ 
ell] = T pae 














运行 和 结 


9.6K/s Mi 全 ot 16:28 





http://127.0.0.1:9000/ 


hello world! 
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Node.js Docker 
docker vs host 


var http = require('http'); 
http.createServer(function (req, res) ( 
res.writeHead(200, {'Content-Type': 'text/plain'}); 
res.end('Hello World\n'); 

}).listen(1337); 

console.log('Server running at http://0.0.0.0:1337/"); 


针对 我 们 最 关心 的 性 能 问题 ， 用 node-v4.2.3 做 了 对 比 测 试 : docker vs 
host node 。 结 论 是 性 能 损失 在 1%~49% 之 间 ， 依 据 网 络 ， 业 务 代码 因子 而 不 
定 ， 数 据 如 下 : 


。 外 部 网 络 环境 


docker node 
root@ubuntu-512mb-nyc3-01:~/wrk# ./wrk http://192.241.209.*:1337 
Running 10s test Q http://192.241.209.*:1337 

2 threads and 10 connections 


Thread Stats Avg Stdev Max  +/- Stdev 
Latency 76.01ms 1.24ms 88.79ms 83.6896 
Req/Sec 65.51 16.12 101.00 76.77% 

1305 requests in 10.04s, 198.81KB read 

Requests/sec: 129.99 
Transfer/sec: 19.80KB 
host node 


root@ubuntu-512mb-nyc3-01:~/wrk# ./wrk http://192.241.209.*:1337 


Running 10s test Q http://192.241.209.*:1337 
2 threads and 10 connections 


Thread Stats Avg Stdev Max +/- Stdev 
Latency 75.85ms 1.87ms 87.10ms 61.29% 
Req/Sec 65.66 12.35 101.00 57.07% 

1307 requests in 10.03s, 199.11KB read 

Requests/sec: 130.27 
Transfer/sec: 19. 85KB 


。 内 部 网 络 环境 


** host node** 
[root@centos7-x64 statusbar]# wrk http://localhost:1337 
Running 10s test @ http://localhost:1337 

2 threads and 10 connections 


Thread Stats Avg Stdev Max  -/- Stdev 
Latency 1.51ms 1.34ms 39.81ms 98 . 03% 
Req/Sec 3.46k 821.79 4.29k 76.50% 


68971 requests in 10.05s, 10.26MB read 
Requests/sec: 6862.84 
Transfer/sec: 1.02MB 


docker node ~--net=host 模式 
[root@centos7-x64 ~]# wrk http://localhost :1337 
Running 10s test @ http://127.0.0.1:1337 

2 threads and 10 connections 


Thread Stats Avg Stdev Max +/- Stdev 
Latency 1.49ms 287.14us 3.81ms 92.9996 
Req/Sec 3.30k 424.64 3.60k 91.00% 


65866 requests in 10.03s, 9.80MB read 
Requests/sec: 6564.82 
Transfer/sec: 0.98MB 


总 的 来 说 ， 对 于 正常 web 应 用 ， 走 外 部 网 络 连接 ， 性 能 损失 很 小 ， 却 极 大 的 方便 了 
我 们 的 开发 运 维 。 


部 闭 应 用 


什么 是 MEAN 架构 ? MEAN 表示 Mongodb / ExpressJS / oe 
/NodeJS， 是 目前 流行 的 网 站 应 用 开发 组 合 ， 涵 盖 前 端 至 后 台 。 由 于 这 些 框架 
用 的 语言 都 是 Javascript， 所 以 又 戏称 Javascript Fullstack ° 


本 例子 中 ， 我 们 将 尝试 部 署 一 个 MEAN 架构 的 NodeJS 应 用 。 


录 结 构 
I— docker-node-full/ 
| bL start.sh 
| LP Dockerfile 


安装 Docker 


Ubuntu 的 系统 ， 使 用 apt 安装 : 


$ sudo apt-get install -y docker-engine 


创建 步骤 
@ 创建 文件 夹 


mkdir ~/docker-node-full && cd $_ 


e 创建 Dockerfile 配置 文件 


# 设置 基础 镜像 

FROM ubuntu:14.10 

# 安装 NodeJS 和 npm 

RUN apt-get install -y nodejs npm 


# Wt apt-get FRJ Node 实际 上 是 nodejs， 所 以 要 创建 一 个 node 的 快捷 
方式 

RUN 1n -s /usr/bin/nodejs /usr/bin/node 

# 安装 Git 

RUN apt-get install -y git 


4 安装 Mongodb (来 自 官方 教程 ) 

RUN apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 
7FOCEB10 

RUN echo 'deb http://downloads-distro.mongodb.org/repo/ubuntu-up 
start dist 10gen' | tee /etc/apt/sources.list.d/mongodb.list 

RUN apt-get update 

RUN apt-get install -y mongodb-org 


4 设置 工作 目录 
WORKDIR /srv/full 


# 清空 已 存在 的 文件 (如果 有 ) 
RUN rm -rf /srv/full 


# 通过 Git 下 载 准备 好 的 MEAN 架构 的 网 站 代码 
RUN git clone https://github.com/chuyik/fullstack-demo-dist.git 
# 安装 NodeJS 依赖 库 


RUN npm install --production 


4 创建 mongodb 数据 文件 夹 
RUN mkdir -p /data/db 


# 暴露 端口 (分别 是 NodeJS 应 用 和 Mongodb) 
EXPOSE 5566 27017 


# 设置 NodeJS 应 用 环境 变量 
ENV NODE_ENV=production PORT=5566 


# 添加 启动 脚本 
ADD start.sh /tmp/ 


RUN chmod +x /tmp/start.sh 


H 设置 启动 时 默认 运行 命令 
CMD ["bash", po T 


e 创建 start.sh 启动 脚本 


# 后 台 局 动 Mongodb 
mongod --fork --logpath-/var/log/mongo.log --logappend 


4 运行 NodeJS 应 用 
npm start 


构建 镜像 


# 通过 该 命令 ， 按 照 Dockerfile 所 配置 的 信息 构建 出 镜像 
docker build --rm -t node-full . 


H 检查 镜像 是 否 创 建成 功 
docker images 


运行 镜像 


# 运行 刚刚 创建 的 镜像 
# -p 设置 端口 ， 格 式 为 【主机 端口 :容器 端口 ] 
docker run -p 5566:5566 node-full 


访问 应 用 


可 以 用 浏览 器 访问 http://localhost:5566, 或 运行 curl -s http://localhost:5566 。 


保存 Mongodb 数据 文件 


由 于 Mongodb 服务 运行 在 Docker 容器 (container) 中 ， 所 以 数据 也 在 里 面 ， 但 这 
并 不 利于 数据 管理 和 保存 。 Rib T» 过 一 些 方法 ， 将 Mongodb 数据 文件 保存 
在 容器 的 外 头 。 


磁盘 映射 


这 个 是 最 简单 的 方式 ， 在 docker run 命令 当中 ， 就 有 磁盘 映射 的 参数 -v。 


# -v 磁盘 映射 ， 格 式 为 『 主 机 目录 :容器 目录 ]| 
docker run -p 5566:5566 -v /var/mongodata:/data/db node-full 


但 这 个 命令 在 Mac 和 Windows 中 执行 失败 ， 因 为 boot2docker 的 虚拟 机 不 支持 。 
所 以 ， 可 以 将 数据 保存 在 boot2docker 内 ， 并 设置 共享 文件 夹 便于 Mac X 
Windows 访问 。 


Be 


node-profiler 作为 alinode 团队 的 另 一 款 产品 能 够 帮助 您 线 下 深入 分 析 
javascript 代码 的 性 能 ， 将 Google V8 的 性 能 细节 展现 在 您 的 面前 ， 优 化 而 知 其 所 以 
然 。 线 上 调 优 请 使 用 alinode 。 


下 载 安 装 
推荐 安装 工具 tnvm ， 支 持 node, alinode, profiler 的 安装 切换 。 


wget -0- https://raw.githubusercontent.com/aliyun-node/tnvm/mast 
er/install.sh | bash 


完成 安装 后 ， 您 需要 将 tnvm 添 加 为 命令 行程 序 。 根 据 平 台 的 不 同 ， 可 能 是 
~/.bashrc，~/.profile 或 ~/.zshrc. 


tnvm install profiler-v0.12.6 
tnvm use profiler-v0.12.6 


使 用 示例 


var http = require('http'); 
http.createServer(function (req, res) { 
res.writeHead( 200); 
res.end('hello world!'); 
}).listen(1334); 


$ node-profiler server.js 

start agent 

webkit-devtools-agent: A proxy got connected. 
webkit-devtools-agent: Waiting for commands... 
webkit-devtools-agent: Websockets service started on 0.0.0.0:999 
9 <== 启 动 成 功 


如 出 现 如 下 : 


Error: listen EADDRINUSE <== 可 能 是 由 于 端口 被 占用 


成 功 局 动 后 ， 则 用 chrome( 推 着) 手动 打开 url 
(http://alinode.aliyun.com/profiler/inspector.html?host-localhost:9999&page-0) 出 
现 如 下 界面 : 


Profiles | 
e 8 v» 
Profiles 


Select profiling type 


® Collect JavaScript CPU Profile 
CPU profiles show where the execution time is spent in your page's JavaScript functions 


默认 Collect JavaSript CPU Profile > € à: Start ° 


可 以 采用 压 测 脚本 实现 对 服务 进行 压力 测试 ， 保 证 更 多 的 结果 : 


$ wrk http://localhost:1334/ # 这 里 使 用 wrk， 也 可 以 使 用 其 他 工具 ， 如 ab 


Node.js 调 优 


点 击 Stop， 得 到 如 下 图 的 结果 : 





Profiles | 
e O 5 Heavy (Bottom Up) * © X Show All Functions M 
Self X 9 of Hidden Classes Reason for Deoptimitsiton Function 
Profiles 4 (program) iprogramil < 
CPU PROFILES 6245.6 ms 746 s 0 b reglace native ztrna.is.122 
2607.5 ms 2607 5 (gorbege collector iprogremit 
> RegExp: [e] dprogrem) t 
b DoRegExpEse pative regesp js 67 
> RegExp: (b] jpresremi1 
> parserOnHeadersComplete hip commen 
> write Iprogramit 
bemt fenis ]TO 
> perserOnMessageComplete -hite common is-140 
> socketOrOote bttp serveris.342 
> readable Add Chunk Bream readable is. 141 
P (anonymous furcbon) [home/jangkea/string replace qcit39 
b remove bole i649 
> resOnFinih Bip. seriei 
P Socket. writeCeneric net isto 
> execute inroaram} t 
3 6 ms 0 > Reodable reed -eam readable i264 
sms Sims 6 po reason b exports _verefactive tmer i557 
44cm ohm 7 no reason > OutgoecMessage. storeHteader Mito cutgoing js:197 
446 302m 0 nereasan b clearBulfer Stream wriablejs379 
tams sams 00 reason > wrkeOrBuffer Stream wrkable,is:267 
ado ntes 0 poreason > OutgoingMessage write hito. eutaoingius1t 
33m 58m 0 poreeson > unrefTimer Detin206 
tm T 0 poremson > orante —stream_wrkable ls 329 
Jm ‘Am INNEN no reason » odduistener ventsix. 14g 
s~ TI 6 no reason b dowrite -Mream wriable is:295 
3mm 3 me 6 no reason > IncomingMessage. addteaderLne -Mito incoming is:149 
33ms S4ms 0 no reason > Readable on Bitam readable 5672 
33 882 0 poreason > OutgomgMessage end http. outaoine 5.504 
33m 120m 0 poreaxoD > OutgongMessage send hito. eutaningis 127 
2205 BTms 0 noremzon > OutgongMessage. writeRsw -Itton cutooingis]4T 
22ms 65ms 0 poreason b Socket write netit)? 
les 120m 2 no resson > Serverflesponse weiteHead „bttp serveris 177 
22 41 Ams 0 noresvon > Writable.uncork -Mream wrBable is23t 
22m $4ms 0 norneason b utcDate tp eutgoegitó2 
2205 65m 1 po reason > ServerResponse assignSochet Mip.senerikiài + 


可 以 看 到 更 多 关于 函数 在 运行 时 的 信息 。 


UI 含义 


Ge 


Ul 栏目 示意 
Self exclusive time 
Total inclusive time 
# Hidden Classes 隐藏 类 个 数 
Bailout V8 中 提取 的 最 后 一 次 去 优化 原 


Function £ Z5 fr script : line 
红色 表示 函数 未 被 优化 ， 淡 绿色 表示 函数 被 V8 优 化 过 。 
原理 介绍 

e 基于 V8 内 置 采 样 收集 器 ; 

e 固定 采样 频率 ， 黑 认 1ms, 可 配置 ; 

e 会 暂停 主线 程 ， 采 样 函数 call stack， 统 计时 间 ; 


e 需 保 证 采样 足够 长 的 时 间 (MA) © 


解释 下 两 个 概念 
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e exclusive time :独占 时 间 
e inclusive time :包含 时 间 


function foo() f 


bar(); 
} 
function bar() { 
<== KH S 
} 
foo(); 


这 个 例子 ， 采 样 点 在 bar()， 那么 bar 所 消耗 的 时 间 叫 作 exclusive time， 而 foo 调 用 
T bar, foo 所 消耗 的 时 间 包 括 了 bar 的 时 间 ， 叫 作 inclusive time . 


注意 事项 


e 该 工具 目前 只 支持 X64 平台 (Linux, Mac)。 
e 切 勿 部 署 到 线 上 ， 如 需 线 上 调 优 请 使 用 alinode。 


V8 bailout reasons 


v8 bailout reasons 的 例子 , 解释 和 建议 . 帮助 alinode 的 用 户 根据 CPU-Profiler 
的 提示 进行 优化 。 


索引 


Bailout reasons 


e Assignment to parameter in arguments object 

e Bad value context for arguments value 

e ForlnStatement with non-local each variable 

e Object literal with complex property 

e ForlnStatement is not fast case 

e Reference to a variable which requires dynamic lookup 
e TryCatchStatement 

e TryFinallyStatement 

e Unsupported phi use of arguments 

e Yield 


Bailout reasons 


Assignment to parameter in arguments object 
e 简单 例子 


// sloppy mode only 
function test(a) ( 
if (arguments.length « 2) { 
aco 
} 
} 


e Why 


o 只 会 在 函数 中 重新 赋值 参数 发 生 。 
e Advices 


o 你 不 能 给 变量 a 重新 赋值 . 
o 最 好 使 用 strict mode . 
o V8 最 新 的 TurboFan 会 有 优化 #1. 


Bad value context for arguments value 


e 简单 例子 


// strict & sloppy modes 
function cesta) { 
arguments[0] = 0; 


// strict & sloppy modes 
function test2() { 
arguments .length = 0; 


// strict & sloppy modes 
function test3() f 
return arguments; 


// strict & sloppy modes 
function test4() ( 
var args = [].slice.call(arguments); 


// strict & sloppy modes 
FUNCTION testor) 
var a = arguments; 
return function() 1 


return a; 
H 
} 
e Why 
o 要 求 再 具体 化 arguments 数组 . 
e Advices 
o 可 以 读 读 : https://github.com/petkaantonov/bluebird/wiki/Optimization- 
killers#3-managing-arguments 
o 你 可 以 循环 arguments 创建 一 个 新 的 数组 Unsupported phi use of 
arguments 
o V8 最 新 的 TurboFan 会 有 优化 #1. 
e 外 部 链接 
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o https://github.com/bevry/taskgroup/issues/12 
o £2 


ForlnStatement with non-local each variable 
e 简单 例子 


// strict & sloppy modes 
function testi() { 

var obj = {}; 

for(key in obj); 
} 


// strict & sloppy modes 
function key() { 
return “ae; 


j 
function test2() ( 


var obj = (Y 
for(key() in obj); 
} 


e Why 


o https://github.com/yjhjstz/v8-git- 
mirror/blob/master/src/hydrogen.cc#L5254 
e Advices 


o 只 有 纯 局 部 变量 可 以 用 于 for..in 
o https://github.com/petkaantonov/bluebird/wiki/Optimization-killers#5-for-in 
e 外 面 链 接 


o https://github.com/mbostock/d3/pull/2686 


Object literal with complex property 


e 简单 例子 


function test() { 
return { 
proto :3 
}; 
} 
e Why 


e Advices 


o 简化 Object 。 


ForlnStatement is not fast case 
e 简单 例子 
for (var prop in obj) { 
an 


e Why 


o for 循环 中 包含 太 多 的 代码 。 
e Advices 


o for 循环 中 的 提取 代码 提取 为 函数 。 


Reference to a variable which requires dynamic 
lookup 


e 简单 例子 


// sloppy mode only 

function test() { 

with ({x:1}) { 
return x; 


e Why 


o 编译 时 编译 定位 失败 ，Crankshaft 需 要 重新 动态 查找 。#3 
e Advices 


o TurboFan 可 以 优化 。 


TryCatchStatement 
e 简单 例子 


// strict & sloppy modes OR // sloppy mode only 
function func() { 

neunike; 

try {} catch(e) {} 
} 


e Why 

o try/catch 使 得 控制 流 不 稳定 ， 很 难 在 运行 时 优化 。 
e Advices 

o 不 要 在 负载 重 的 函数 中 使 用 try/catch. 

o 可 以 重 构 为 try { func() } catch 


TryFinallyStatement 


e 简单 例子 


// strict & sloppy modes OR // sloppy mode only 
function func() { 

return 3; 

try {} finally {} 
} 


e Why 


o See TryCatchStatement 
e Advices 


o See TryCatchStatement 


Unsupported phi use of arguments 


e 简单 例子 


// strict & sloppy modes 
function testi() { 
var arguments = arguments; 
if (0 === 0) ( // anything evaluating to true, except a number 
or “true” 
.arguments - [0]; // Unsupported phi use of arguments 


// strict & sloppy modes 
function test2() ( 
var arguments - arguments; 
for (var 4 = 0; 3 « 1; att) d 
.arguments - [0]; // Unsupported phi use of arguments 


// strict & sloppy modes 
function test3() ( 
var arguments = arguments; 
var again - true; 
while (again) ( 
.arguments - [0]; // Unsupported phi use of arguments 
again - false; 


e Why 


o Crankshaft 无 法 知道 arguments 是 object *% array. 
o RATH 
e Advices 


o 最 好 操作 arguments 的 拷贝 . 
o TurboFan 可 以 优化 #1. 


Yield 


。 简单 例子 


NO 


// strict & sloppy modes 
function* test() 1 

yield 0; 
j 


e Why 


o generator 状态 保持 、 恢 复 通 过 拷贝 函数 栈 帧 实现 ， 但 在 优化 编译 器 中 并 
不 适用 。 
e Advices 


o 暂时 不 用 考虑 ，TurboFan 可 以 优化 。 
e 外 部 链接 : 


o https://groups.google.com/forum/#!topic/v8-users/KnnUb-u4rAs 


Resources 


e All bailout reasons in Chromium codebase 

e Bad value context for arguments value 

e |-want-to-optimize-my-JS-application-on-V8 checklist 

e JavaScript: Performance loss on incorrect arguments using 
e Optimization killers 

e OptimizationKillers 

e Performance Tips for JavaScript in V8 

e thlorenz/v8-perf 
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